罗福莉发布全栈模型家族

传说中的DeepSeek天才少女、雷军千万年薪挖角的罗福莉也开始发推了。

帖子里最生动的段落是关于她第一次使用复杂 Agent 脚手架的经历。她用的词是：orchestrated Context，编排过的上下文，我理解就是现在比较火的 Harness Engineering。

她说第一天就被震惊了，然后试图说服团队去用，没成功，于是下了一个硬性命令：
> MiMo 团队里，明天对话数不到 100 条的人，可以辞职了。

这个管理风格相当激进，但有效。一旦团队的想象力被 Agent 系统的能力点燃，这种想象力就直接转化成了研发速度。

一方面确实霸气，一方面也让我有点意外，原以为大模型团队应该是更积极拥抱这种从传统 Chat 模型到 Agent 模型范式变化的。

其他都是“干货”

1. 提前押注的架构优势

1T 底座模型几个月前就开始训练了，当时的目标是长上下文推理效率。采用了 Hybrid Attention 机制（混合注意力，简单说就是不让所有 token 都互相关注，而是让一部分用全局注意力、一部分用局部注意力，大幅降低计算成本），支持百万 token 上下文窗口，加上 MTP 推理层（Multi-Token Prediction，一次预测多个 token 而不是一个一个蹦，推理延迟和成本都大幅下降）。

这些架构决策在当时并不时髦，但它们恰好成了 Agent 时代的结构性优势。

2. 为什么 MiMo 团队能这么快

罗福莉在做 DeepSeek R1 的时候亲眼见证过的真实总结：

— 基座与基础设施研究周期很长。你需要在它产出回报的一年前就有战略定力。

— 后训练的敏捷性是另一种能力：靠产品直觉驱动评估，压缩迭代周期，及早捕捉范式转换。

— 还有那些不变的东西：好奇心、敏锐的技术直觉、果断的执行力、全力以赴。

以及一样很容易被低估的东西：对你正在为之构建的世界，发自内心的热爱。

3. 模型会开源的，等模型稳定到值得开源的时候。

-----
以下为推文翻译
x.com/_LuoFuli/status/2034379957913129140
----

Fuli Luo @_LuoFuli

MiMo-V2-Pro、Omni 和 TTS 发布了。这是我们第一个真正为 Agent 时代打造的全栈模型家族。

我把这次发布称为一场无声的奇袭——不是因为我们刻意谋划，而是因为从 Chat 到 Agent 的范式转换来得太快，快到连我们自己都不敢相信。那个过程让人兴奋、痛苦，又着迷。

1T 参数的基座模型几个月前就开始训练了。最初的目标是长上下文推理效率。混合注意力（Hybrid Attention）机制有真正的创新，但没有用力过猛——而事实证明，它恰好是 Agent 时代最合适的基础架构。百万级上下文窗口。MTP 推理（Multi-Token Prediction）实现超低延迟和成本。这些架构决策在当时并不时髦，但它们是我们在需要之前就建好的结构性优势。

真正改变一切的，是第一次亲身体验一个复杂的智能体脚手架——我称之为"编排式上下文"（orchestrated Context）。第一天我就被震撼到了。我试图说服团队去用它，但没用。于是我下了一道硬指令：MiMo 团队里，明天跟 Agent 系统的对话不到 100 轮的人，可以走人。这招管用了。一旦团队的想象力被智能体系统的能力点燃，这种想象力就直接转化为了研究速度。

人们总问我们为什么能跑这么快。我在做 DeepSeek R1 的时候亲眼见证过。我的真实总结：

— 基座与基础设施研究周期很长。你需要在它产出回报的一年前就有战略定力。

— 后训练的敏捷性是另一种能力：靠产品直觉驱动评估，压缩迭代周期，及早捕捉范式转换。

— 还有那些不变的东西：好奇心、敏锐的技术直觉、果断的执行力、全力以赴——以及一样很容易被低估的东西：对你正在为之构建的世界，发自内心的热爱。

我们会开源的——等模型稳定到值得开源的时候。

发自北京，很晚了，还没完全清醒。

---

**译注**：
- orchestrated Context：作者自创概念，指复杂 Agent 系统中经过编排的上下文管理方式
- MTP：Multi-Token Prediction，一种可同时预测多个 token 的推理方式，能降低延迟和成本

发布于美国