速览一下mimo-v2-pro在Artificial Analysis网站的测评
先介绍一下,Artificial Analysis这个是一个独立的 AI 基准测试平台
向社会发布免费公开的 AI 模型评测与排行榜
因为测评的基准很多,所以还是很有参考价值的
————————————————————
然后再看一下细分的几个领域的评测
一是Agentic Index(智能体能力指数)
这个榜单专门测评大模型的 Agent 智能体核心能力,也就是大模型作为智能体,完成复杂任务拆解、多步逻辑推理、工具调用、环境交互、容错纠错的能力。
这个指数是GDPval-AA、τ²-Bench Telecom两大权威 Agent 测评基准的平均分,测评场景完全贴近真实落地:
GDPval-AA:核心测评大模型的工具调用、多步规划、复杂任务执行能力,覆盖日常办公、数据处理、API 调用、多轮任务拆解等通用 Agent 落地场景;
τ²-Bench Telecom:聚焦垂直行业的复杂任务,考验模型在真实业务场景里的需求理解、推理规划、工具调用、纠错兜底能力,对模型的落地适配性要求极高。
在这里小米的得分是49,仅次于御三家GPT,Gemini和Claude,以及glm5
————————————————————————
二是Coding Index(代码能力指数)
这个榜单测评的是大模型的代码全链路能力,包括代码生成、代码理解、调试纠错、终端交互、复杂算法实现、工程化开发能力,是大模型最核心的专业能力之一。
这个指数是Terminal-Bench Hard、SciCode两大代码测评基准的加权平均分,覆盖了从通用开发到专业科研的全场景:
Terminal-Bench Hard:聚焦真实开发环境,测评模型在终端里的代码编写、命令执行、工程化任务完成、调试纠错能力,完全贴近程序员的真实工作场景;
SciCode:面向科研、科学计算场景的专业测评,考验模型对复杂算法、科学公式、垂直领域代码的理解与生成能力,对模型的专业知识和逻辑推理要求极高。
小米在这里得分是40,同样是低于御三家GPT,Gemini和Claude,以及glm5和grok
——————————————————————
三是Artificial Analysis Intelligence Index(综合智能指数)
测评的是大模型的综合通用智能能力,是对模型全维度实力的综合打分,也是行业判断大模型整体研发实力的核心参考。
一共纳入了10 项权威测评,覆盖了逻辑推理、代码能力、知识储备、Agent 能力、数学能力、安全合规、复杂任务处理等全维度,包括:GDPval-AA、τ²-Bench Telecom、Terminal-Bench Hard、SciCode、AA-LCR、AA-Omniscience、IFBench、Humanity's Last Exam、GPQA Diamond、CritPt。
小米在这里的得分是63,持平glm5和Claude4.6sonnet,并列第三!
现在看来,之前对于小米这个模型的评价——基于hunter alpha完全没有偏差
这个现在就是全球第二梯队,国产第一梯队的模型!
当然,你也可以说,这个模型还有很多不尽如人意,无法进入第一梯队的特性
比如说,这个1t参数的模型不是全模态的模型
比如说,在测试的时候他输出的token太多,这对于真实使用来说是很影响应用的
比如说,世界知识还是不太好,不像gemini、seed一样做了非常多的工作,甚至对齐了多语种的语音、字形等等。(来自弱智吧测评集)
但是者仍然是一个非常可敬的消息,
因为要知道,小米的mimo团队,是2024年的才组建的,到现在还不到两年
小米的mimov2flash,是去年11月才发布的,后来还保持着月更。
与v2pro同时出席的,还有一个多模态的v2omni模型
要知道,minimax,智谱都已经是三四千亿市值的公司了
mimo作为初创团队,能迅速斩落当前这个成绩,何曾不是一种春季震撼?
期待mimo团队的后续工作,按照现在的进度来看,后面肯定还能带来更多惊喜的
