#小米首次登顶全球开源大模型第一# Agent长程任务正在进入2.0阶段。
过去一年,Agent长程任务的1.0阶段是一场极限展示——让AI独立完成一个完整项目,动辄工作十几个小时,过程中频繁出错、反复重试,最终勉强交付。它证明了AI确实能干活,但离真正可用还有距离。
小米公测的MiMo-V2.5系列模型,给出了Agent长程任务2.0的样本:从"能不能做到"到"能不能做好"。
最直观的案例:北大研究生耗时数周才完成的编译器项目,MiMo-V2.5-Pro用4.3小时一次跑通,满分。不是反复试错后的幸运通关,是单次完成、一次满分——这才是Agent长程任务从"极限展示"走向"生产力工具"的关键跨越。
支撑这个跨越的是几个底层能力的升级:百万级上下文支持让模型不再"遗忘",单次近千次工具调用让复杂任务不再需要人工接力,模糊指令遵循让模型真正理解你"没说出口的那部分需求"。
同时,在Artificial Analysis最新榜单中,小米MiMo首次登顶全球开源大模型第一,全模态版本在 CharXiv、MMMU-Pro、VideoMME 等评测中逼近甚至超越业界顶级闭源模型。当国产模型不仅在性能上追平顶级闭源模型,更在长程任务质量上率先定义新标准,竞争的维度已经变了。
Agent长程任务1.0证明了AI能干活,2.0要证明的是——AI能干好活。这条路上,小米先交了卷。
发布于 广东
