宝玉xp 26-03-20 00:59
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

传说中的DeepSeek天才少女、雷军千万年薪挖角的罗福莉也开始发推了。

帖子里最生动的段落是关于她第一次使用复杂 Agent 脚手架的经历。她用的词是:orchestrated Context,编排过的上下文,我理解就是现在比较火的 Harness Engineering。

她说第一天就被震惊了,然后试图说服团队去用,没成功,于是下了一个硬性命令:
> MiMo 团队里,明天对话数不到 100 条的人,可以辞职了。

这个管理风格相当激进,但有效。一旦团队的想象力被 Agent 系统的能力点燃,这种想象力就直接转化成了研发速度。

一方面确实霸气,一方面也让我有点意外,原以为大模型团队应该是更积极拥抱这种从传统 Chat 模型到 Agent 模型范式变化的。

其他都是“干货”

1. 提前押注的架构优势

1T 底座模型几个月前就开始训练了,当时的目标是长上下文推理效率。采用了 Hybrid Attention 机制(混合注意力,简单说就是不让所有 token 都互相关注,而是让一部分用全局注意力、一部分用局部注意力,大幅降低计算成本),支持百万 token 上下文窗口,加上 MTP 推理层(Multi-Token Prediction,一次预测多个 token 而不是一个一个蹦,推理延迟和成本都大幅下降)。

这些架构决策在当时并不时髦,但它们恰好成了 Agent 时代的结构性优势。

2. 为什么 MiMo 团队能这么快

罗福莉在做 DeepSeek R1 的时候亲眼见证过的真实总结:

— 基座与基础设施研究周期很长。你需要在它产出回报的一年前就有战略定力。

— 后训练的敏捷性是另一种能力:靠产品直觉驱动评估,压缩迭代周期,及早捕捉范式转换。

— 还有那些不变的东西:好奇心、敏锐的技术直觉、果断的执行力、全力以赴。

以及一样很容易被低估的东西:对你正在为之构建的世界,发自内心的热爱。

3. 模型会开源的,等模型稳定到值得开源的时候。

-----
以下为推文翻译
x.com/_LuoFuli/status/2034379957913129140
----

Fuli Luo @_LuoFuli

MiMo-V2-Pro、Omni 和 TTS 发布了。这是我们第一个真正为 Agent 时代打造的全栈模型家族。

我把这次发布称为一场无声的奇袭——不是因为我们刻意谋划,而是因为从 Chat 到 Agent 的范式转换来得太快,快到连我们自己都不敢相信。那个过程让人兴奋、痛苦,又着迷。

1T 参数的基座模型几个月前就开始训练了。最初的目标是长上下文推理效率。混合注意力(Hybrid Attention)机制有真正的创新,但没有用力过猛——而事实证明,它恰好是 Agent 时代最合适的基础架构。百万级上下文窗口。MTP 推理(Multi-Token Prediction)实现超低延迟和成本。这些架构决策在当时并不时髦,但它们是我们在需要之前就建好的结构性优势。

真正改变一切的,是第一次亲身体验一个复杂的智能体脚手架——我称之为"编排式上下文"(orchestrated Context)。第一天我就被震撼到了。我试图说服团队去用它,但没用。于是我下了一道硬指令:MiMo 团队里,明天跟 Agent 系统的对话不到 100 轮的人,可以走人。这招管用了。一旦团队的想象力被智能体系统的能力点燃,这种想象力就直接转化为了研究速度。

人们总问我们为什么能跑这么快。我在做 DeepSeek R1 的时候亲眼见证过。我的真实总结:

— 基座与基础设施研究周期很长。你需要在它产出回报的一年前就有战略定力。

— 后训练的敏捷性是另一种能力:靠产品直觉驱动评估,压缩迭代周期,及早捕捉范式转换。

— 还有那些不变的东西:好奇心、敏锐的技术直觉、果断的执行力、全力以赴——以及一样很容易被低估的东西:对你正在为之构建的世界,发自内心的热爱。

我们会开源的——等模型稳定到值得开源的时候。

发自北京,很晚了,还没完全清醒。

---

**译注**:
- orchestrated Context:作者自创概念,指复杂 Agent 系统中经过编排的上下文管理方式
- MTP:Multi-Token Prediction,一种可同时预测多个 token 的推理方式,能降低延迟和成本

发布于 美国