Sigma-MoE-Tiny技术报告

[CL]《Sigma-Moe-Tiny Technical Report》Q Hu, Z Lin, Z Yang, Y Ding... [Microsoft Research] (2025)

大模型参数规模的竞赛正进入下半场：真正的挑战不再是堆砌参数，而是在保持庞大知识库的同时，如何让推理成本低到极致。

本文为我们展示了极致稀疏化（Super-high Sparsity）的无限可能。这不仅是一个模型，更是一次关于模型效率边界的深度探索。

以下是该技术报告的核心精华与深度思考：

1. 极致稀疏：40比1的参数魔法

Sigma-MoE-Tiny 拥有 20B 的总参数量，但在推理时每个 token 仅激活 0.5B 参数。这种 40:1 的激活比例，使其成为目前开源社区中稀疏度最高的 MoE 模型。

这意味着它用 0.5B 的计算成本，承载了 20B 规模的知识容量。这种架构设计打破了传统模型规模与计算开销的线性绑定，让低功耗设备运行高性能模型成为可能。

2. 破解路由塌陷：渐进式稀疏调度

在极致稀疏的场景下，传统的负载均衡损失函数（LBL）会失效。研究发现，底层网络往往会寻找优化捷径，导致专家利用极度不均，甚至出现某些专家永远被闲置的路由塌陷现象。

团队提出了渐进式稀疏调度方案：在训练初期，为底层网络保留更多的激活专家，给予模型充分的探索空间；随着训练推进，再逐步收拢至 Top-1 激活。这种从博采众长到精准专精的演进过程，确保了训练的稳定性与专家利用的高效。

3. 课程学习：从 4K 到 128K 的长文本进化

Sigma-MoE-Tiny 的能力释放并非一蹴而就。在后训练阶段，团队采用了多阶段课程学习：
- 语境扩展：从 4K 逐步延伸至 128K，配合 RoPE 底数调整。
- 逻辑强化：引入 Long-CoT（长链条思维）数据，并在系统提示词中加入思维引导。
- 任务对齐：将数学、代码、科学等领域的比例精准调配，确保模型在长文本下依然保持严密的推理逻辑。

4. 越级挑战：0.5B 激活参数的惊人表现

评测结果令人振奋。仅凭 0.5B 的激活参数，Sigma-MoE-Tiny 在 GPQA-Diamond 等高难度基准测试中，展现出了足以媲美 7B 至 10B 规模稠密模型的性能。在 AIME 竞赛数学题和代码生成任务上，它甚至超越了参数量大其数倍的知名模型。

这证明了一个深刻的道理：模型的强大不在于同时动用多少神经元，而在于神经元之间是否实现了高度的专业化分工。

深度启发与金句：

- 稀疏性是智能的终极杠杆。它让我们在有限的算力预算下，撬动了跨越数量级的知识空间。
- 好的模型架构应该像一支训练有素的特种部队：虽然总人数众多，但面对特定任务时，只需出动最精准的那一个专家。
- 训练过程中的渐进式约束，本质上是在效率与稳定性之间建立动态平衡。过早的专精会导致平庸，过晚的约束则浪费算力。
- 极致的效率本身就是一种通往 AGI 的路径。当推理成本降低到忽略不计，AI 才能真正无处不在。

Sigma-MoE-Tiny 的成功预示着，未来 MoE 的演进方向将是更细粒度的专家切分与更智能的动态路由。它不仅证明了小规模激活也能产生高质量智能，更指明了通往高效基础模型的新航路。

论文链接：arxiv.org/abs/2512.16248

发布于北京