#小米开源首个AI推理模型##小米LLM团队模型首秀#
小米开源了首个推理模型MiMo,主打一个“小而强”。
打开论文,右上角就是一个大大的小米Logo,论文署名则是“小米LLM核心团队“。【图1】
MiMo-7B全系列包含4个模型版本:
1. MiMo-7B-Base:基础预训练模型,训练数据规模达25万亿tokens,强调“推理密度”,并引入MTP(Multi-Token Prediction,多token预测)机制,显著提升生成速度和质量;
2. MiMo-7B-SFT:在Base模型上进行监督微调(Supervised Fine-Tuning),作为强化学习(RL)的热启动版本;
3. MiMo-7B-RL-Zero:直接从Base模型进行冷启动的强化学习训练;
4. MiMo-7B-RL:在SFT模型基础上热启动再强化,当前为性能最强版本
按理说,推理任务往往得靠大参数模型来扛,但MiMo仅7B的体量,就超越了多个大模型:
- 在AIME 2025数学测试中,MiMo-7B-RL取得55.4分,高于OpenAI的o1-mini(50.7)与阿里巴巴的Qwen-32B(32.4);
- 在代码测试基准LiveCodeBench v5中,MiMo-7B通过率达57.8%,领先于o1-mini(53.8)和Qwen-32B(41.9);
- 在32K长上下文的逻辑追踪和推理任务中,MiMo也进入了领先梯队。
这不是单纯“微调”出来的结果,拆解来看,MiMo的能力进步主要靠两个阶段的创新联动:
1、预训练阶段,打下推理的底子:
- 数据不仅量大(25T tokens),还特别聚焦推理密度,自主生成了约2000亿条推理相关语料;
- 采用“三阶段训练法”,逐层提升难度,让模型逐步掌握复杂推理结构;
- 引入MTP机制,提前预判生成路径,提升推理效率与准确率。
2、后训练阶段,用RL强化逻辑能力:
- 提出“Test Difficulty Driven Reward”(按题目难度打分)机制,有效缓解代码任务中reward稀疏问题;
- 引入Easy Data Re-Sampling策略,提高训练样本利用效率;
- 搭建Seamless Rollout引擎,实现训练过程全异步处理,训练提速2.29倍,验证阶段提速1.96倍。
目前,小米已在GitHub、HuggingFace、ModelScope三个平台全面开源MiMo全系列模型,包括Base、SFT及两种RL版本,相关代码与训练方案也已全部公开。
感兴趣的小伙伴可以点击:http://t.cn/A6dNhqL6
论文:http://t.cn/A6gGhIuI
