#小米开源首个AI推理模型##小米LLM团队模型首秀#小米开源了首个推理模型MiMo，主打一个“小而强”。打开论文，右上角就是一个大大的小米Logo，论文署名则是“小米LLM核心团队“。【图1】MiMo-7B全系列包含4个模型版本：1. MiMo-7B-Base：基础预训练模型，训练数据规模达25万亿tokens，强调“推

#小米开源首个AI推理模型##小米LLM团队模型首秀#

小米开源了首个推理模型MiMo，主打一个“小而强”。

打开论文，右上角就是一个大大的小米Logo，论文署名则是“小米LLM核心团队“。【图1】

MiMo-7B全系列包含4个模型版本：

1. MiMo-7B-Base：基础预训练模型，训练数据规模达25万亿tokens，强调“推理密度”，并引入MTP（Multi-Token Prediction，多token预测）机制，显著提升生成速度和质量；

2. MiMo-7B-SFT：在Base模型上进行监督微调（Supervised Fine-Tuning），作为强化学习（RL）的热启动版本；

3. MiMo-7B-RL-Zero：直接从Base模型进行冷启动的强化学习训练；

4. MiMo-7B-RL：在SFT模型基础上热启动再强化，当前为性能最强版本

按理说，推理任务往往得靠大参数模型来扛，但MiMo仅7B的体量，就超越了多个大模型：

- 在AIME 2025数学测试中，MiMo-7B-RL取得55.4分，高于OpenAI的o1-mini（50.7）与阿里巴巴的Qwen-32B（32.4）；

- 在代码测试基准LiveCodeBench v5中，MiMo-7B通过率达57.8%，领先于o1-mini（53.8）和Qwen-32B（41.9）；

- 在32K长上下文的逻辑追踪和推理任务中，MiMo也进入了领先梯队。

这不是单纯“微调”出来的结果，拆解来看，MiMo的能力进步主要靠两个阶段的创新联动：

1、预训练阶段，打下推理的底子：

- 数据不仅量大（25T tokens），还特别聚焦推理密度，自主生成了约2000亿条推理相关语料；

- 采用“三阶段训练法”，逐层提升难度，让模型逐步掌握复杂推理结构；

- 引入MTP机制，提前预判生成路径，提升推理效率与准确率。

2、后训练阶段，用RL强化逻辑能力：

- 提出“Test Difficulty Driven Reward”（按题目难度打分）机制，有效缓解代码任务中reward稀疏问题；

- 引入Easy Data Re-Sampling策略，提高训练样本利用效率；

- 搭建Seamless Rollout引擎，实现训练过程全异步处理，训练提速2.29倍，验证阶段提速1.96倍。

目前，小米已在GitHub、HuggingFace、ModelScope三个平台全面开源MiMo全系列模型，包括Base、SFT及两种RL版本，相关代码与训练方案也已全部公开。

感兴趣的小伙伴可以点击：http://t.cn/A6dNhqL6
论文：http://t.cn/A6gGhIuI