不吃西梅的林娜 26-04-23 22:08
微博认证:数码博主

相较于V2系列,MiMo-V2.5系列实现了全方位的代际跃升,主要体现在以下三个维度。

(图1)在核心性能上,模型长周期复杂任务处理能力实现质的飞跃。V2.5-Pro于多项权威基准测试中展现强劲实力,其在专为AI编程智能体(Coding Agent)打造的SWE-Bench Pro评测中得分57.2分,而Claude Opus 4.6同期成绩为57.3分。

(图1)在小米MiMo团队自研编码评测套件MiMo Coding Bench中,MiMo-V2.5-Pro得分73.7分,优于前代71.5分的MiMo-V2-Pro,和Claude Opus 4.6(77.1分)的实力差距进一步缩小。

(图2)MiMo-V2.5在多模态理解方面同样进步显著。在全面评估AI智能体解决现实世界复杂问题的能力的Claw-Eval多模态评测中,MiMo-V2.取得23.8分,相比V2-Omni的15.8分有明显优化。

(图3)效率方面,Token利用率大幅提升。MiMo-V2.5系列在Token效率上进行了深度优化。在达到相同Agent评测分数下,V2.5-Pro相比Kimi K2.6节省42%的Token,V2.5相比Muse Spark节省50%的Token。这意味着开发者可以用更少的Token消耗完成同样的任务,显著降低使用成本。
#小米[超话]##小米#

发布于 广东