新浪科技 25-12-17 08:11
微博认证:新浪科技官方微博

【#小米新模型跑分曝光#】小米正式发布并开源新模型 MiMo-V2-Flash。先来看看 MiMo-V2-Flash 的跑分。#小米新模型媲美DeepSeekV3.2##小米发布新模型#

基准测试成绩显示,AIME 2025 数学竞赛和 GPQA-Diamond 科学知识测试中,MiMo-V2-Flash 都排在开源模型前两名。

编程能力更是亮眼,SWE-bench Verified 得分 73.4%,超越所有开源模型,直逼 GPT-5-High。而这个测试是让 AI 去修真实世界的软件 bug,73.4% 的成功率也意味着它能搞定大部分实际编程问题。

在多语言编程基准测试 SWE-Bench Multilingual 里,MiMo-V2-Flash 的解决率为 71.7%。

转看智能体任务,MiMo-V2-Flash 在τ²-Bench 分类得分中,通信类 95.3 分,零售类 79.5 分,航空类 66.0 分,BrowseComp 搜索代理得分 45.4,启用上下文管理后直接飙到 58.3。

这些数据说明,MiMo-V2-Flash 不仅会写代码,还能真正理解复杂任务逻辑,执行多轮智能体交互。

更重要的是,写作质量也接近顶级闭源模型,这意味着 MiMo-V2-Flash 不只是个工具,还能当个靠谱的日常助手。(APPSO)