小米登顶全球开源大模型第一

#小米首次登顶全球开源大模型第一# Agent长程任务正在进入2.0阶段。

过去一年，Agent长程任务的1.0阶段是一场极限展示——让AI独立完成一个完整项目，动辄工作十几个小时，过程中频繁出错、反复重试，最终勉强交付。它证明了AI确实能干活，但离真正可用还有距离。

小米公测的MiMo-V2.5系列模型，给出了Agent长程任务2.0的样本：从"能不能做到"到"能不能做好"。

最直观的案例：北大研究生耗时数周才完成的编译器项目，MiMo-V2.5-Pro用4.3小时一次跑通，满分。不是反复试错后的幸运通关，是单次完成、一次满分——这才是Agent长程任务从"极限展示"走向"生产力工具"的关键跨越。

支撑这个跨越的是几个底层能力的升级：百万级上下文支持让模型不再"遗忘"，单次近千次工具调用让复杂任务不再需要人工接力，模糊指令遵循让模型真正理解你"没说出口的那部分需求"。

同时，在Artificial Analysis最新榜单中，小米MiMo首次登顶全球开源大模型第一，全模态版本在 CharXiv、MMMU-Pro、VideoMME 等评测中逼近甚至超越业界顶级闭源模型。当国产模型不仅在性能上追平顶级闭源模型，更在长程任务质量上率先定义新标准，竞争的维度已经变了。

Agent长程任务1.0证明了AI能干活，2.0要证明的是——AI能干好活。这条路上，小米先交了卷。

发布于广东