mimo-v2-pro测评结果

速览一下mimo-v2-pro在Artificial Analysis网站的测评

先介绍一下，Artificial Analysis这个是一个独立的 AI 基准测试平台
向社会发布免费公开的 AI 模型评测与排行榜

因为测评的基准很多，所以还是很有参考价值的

————————————————————

然后再看一下细分的几个领域的评测

一是Agentic Index（智能体能力指数）

这个榜单专门测评大模型的 Agent 智能体核心能力，也就是大模型作为智能体，完成复杂任务拆解、多步逻辑推理、工具调用、环境交互、容错纠错的能力。

这个指数是GDPval-AA、τ²-Bench Telecom两大权威 Agent 测评基准的平均分，测评场景完全贴近真实落地：

GDPval-AA：核心测评大模型的工具调用、多步规划、复杂任务执行能力，覆盖日常办公、数据处理、API 调用、多轮任务拆解等通用 Agent 落地场景；

τ²-Bench Telecom：聚焦垂直行业的复杂任务，考验模型在真实业务场景里的需求理解、推理规划、工具调用、纠错兜底能力，对模型的落地适配性要求极高。

在这里小米的得分是49，仅次于御三家GPT，Gemini和Claude，以及glm5

————————————————————————

二是Coding Index（代码能力指数）

这个榜单测评的是大模型的代码全链路能力，包括代码生成、代码理解、调试纠错、终端交互、复杂算法实现、工程化开发能力，是大模型最核心的专业能力之一。

这个指数是Terminal-Bench Hard、SciCode两大代码测评基准的加权平均分，覆盖了从通用开发到专业科研的全场景：

Terminal-Bench Hard：聚焦真实开发环境，测评模型在终端里的代码编写、命令执行、工程化任务完成、调试纠错能力，完全贴近程序员的真实工作场景；

SciCode：面向科研、科学计算场景的专业测评，考验模型对复杂算法、科学公式、垂直领域代码的理解与生成能力，对模型的专业知识和逻辑推理要求极高。

小米在这里得分是40，同样是低于御三家GPT，Gemini和Claude，以及glm5和grok

——————————————————————

三是Artificial Analysis Intelligence Index（综合智能指数）

测评的是大模型的综合通用智能能力，是对模型全维度实力的综合打分，也是行业判断大模型整体研发实力的核心参考。

一共纳入了10 项权威测评，覆盖了逻辑推理、代码能力、知识储备、Agent 能力、数学能力、安全合规、复杂任务处理等全维度，包括：GDPval-AA、τ²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、Humanity's Last Exam、GPQA Diamond、CritPt。

小米在这里的得分是63，持平glm5和Claude4.6sonnet，并列第三！

现在看来，之前对于小米这个模型的评价——基于hunter alpha完全没有偏差

这个现在就是全球第二梯队，国产第一梯队的模型！

当然，你也可以说，这个模型还有很多不尽如人意，无法进入第一梯队的特性

比如说，这个1t参数的模型不是全模态的模型
比如说，在测试的时候他输出的token太多，这对于真实使用来说是很影响应用的
比如说，世界知识还是不太好，不像gemini、seed一样做了非常多的工作，甚至对齐了多语种的语音、字形等等。（来自弱智吧测评集）

但是者仍然是一个非常可敬的消息，

因为要知道，小米的mimo团队，是2024年的才组建的，到现在还不到两年

小米的mimov2flash，是去年11月才发布的，后来还保持着月更。

与v2pro同时出席的，还有一个多模态的v2omni模型

要知道，minimax，智谱都已经是三四千亿市值的公司了

mimo作为初创团队，能迅速斩落当前这个成绩，何曾不是一种春季震撼？

期待mimo团队的后续工作，按照现在的进度来看，后面肯定还能带来更多惊喜的

发布于内蒙古