来了来了,mimo大模型又更新了!
距离上一次0112版本的发布还不到一个月,小米大模型团队又猝不及防地推送了MiMo-V2-Flash-0204版本的更新。
算算时间这大概率是春节前的最后一次重磅更新
浅浅通读这次更新的跑分数据,我们可以得出一个结论,
这次优化的核心方向不是为了刷榜,也不是为了做一个满嘴跑火车的闲聊机器人,而是主要优化工具调用、幻觉控制以及指令遵循。
是要打造一个能真正在生产力场景中落地的可靠助手。
具体来看虽然部分常规榜单的绝对分数没有出现大幅飙升,
甚至在某些单项上略有波动,
但它在性价比,Token消耗以及干活的可靠性上都有很大的提升。
后面会大概解读一下这次的跑分表,对本次更新进行拆解。
首先是编程场景的专项强化,
在评估大模型代码能力最权威也最硬核的SWE-Bench Verified榜单中,它要求模型直接解决真实的GitHub仓库问题,考验的是模型阅读庞大代码库、定位漏洞并生成可用补丁的真实软件工程能力。
在思考模式下,新版本的评分从上个版本的74.2跃升至78.6
代码生成的解决率和工程质量均有了显著提高,
在工具调用准确率方面也迎来了史诗级的暴涨。
具调用测试的是模型在面对复杂任务时,能否准确按格式地调用外部接口或搜索、计算器、天气等外部工具,这是衡量一个模型能否作为智能体大脑的核心指标。
在思考模式下,工具调用准确率从之前有点低的44%和64%直接原地起飞,飙升至97%。
这意味着它基本彻底解决了此前工具使用不稳定的痼疾,大幅增强了模型在智能体场景下的执行可靠性。
在严谨度与抗幻觉能力上模型也进行了大幅提高。
在测试模型对复杂多条件苛刻格式指令绝对服从能力的AA-IFBench榜单中,新版拿下了72分的优异成绩。
而在极难的幻觉控制,也就是测试模型事实性知识边界,考验模型是否知道自己不知道的AA-Omniscience榜单上,非幻觉率从9%暴涨至52%。
这表明模型在面对不知道的问题时更倾向于严谨作答或拒绝胡编乱造,事实性回答的严谨度大幅提升。
针对高难度逻辑任务的处理优化也有明显体现。
Arena-Hard是基于用户真实且极具挑战性的提示词集合进行评测的榜单,通常包含大量逻辑陷阱和多重约束且极难作弊。
在处理高难度提示词的思考模式下,评分提升至60.6,对比之前分别是58.3和54.1。这说明在处理高难度逻辑推理问题时,新版模型的思维链条更加清晰破局能力更强。
除了基础的能力提升,这一次关于思维链长度压缩的含金量更高
在各大顶级推理和专业榜单上,MiMo-V2-Flash-0204通过优化思维链的生成策略,在几乎不掉分甚至涨分的情况下,疯狂缩减了冗余Token的消耗。
例如在代表人类顶尖数学竞赛推理能力的AIME25全美数学邀请赛中,模型在保持91.1极高准确率的同时,平均生成Token数从近27000锐减至18879,Token消耗降低了30%。
在包含高难度数学与逻辑测试的哈佛麻省理工数学锦标赛中,准确率基本没有降低,而Token消耗降低了26.7%。在包含最新LeetCode竞赛题以防止模型背题作弊的LiveCodeBench实时编程基准中,准确率提升至84.9的同时Token降低了14.67。
在测试研究生及以上级别专家学科知识的GPQA谷歌物理化学生物专家级问答中,准确率保持在83.8,Token降低了13.89%。
这意味着现在模型更学会了提炼重点,用更少的token能给出同样甚至更精准的答案。
这不仅大幅提升了推理的响应速度,更有效降低了接口调用的Token成本,让性价比直接拉满。
从这次的更新中我们可以看到两个关键信息。
第一是之前虽然模型发布了,表现也很好,但是模型的潜力依然有巨大的压榨空间,小米在用精细化的工程打磨来提升模型的上限。
第二是小米在监督微调和基于人类反馈的强化学习这些后训练环节下了苦功。
无论是工具调用成功率的飙升,还是防幻觉率的提高,亦或是思维链的大幅挤水分,都说明小米的研发团队在确保模型能力能够精准匹配真实任务场景上做出了极其扎实的努力。
目前Flash版本已经进化成了一个更冷静克制高效且听话助手。
那么,我不禁想问:mimo团队敢不敢年前再更新一个pro模型吓死我呢?#小米发布最新mimo大模型##雷军回应小米YU71月份销量#
