小米深夜上线三大模型

#小米深夜上线三大模型#

罗福莉昨天深夜关于新模型的帖子：

MiMo-V2-Pro、Omni 和 TTS 正式发布。这是我们第一个真正为 Agent 时代而生的全栈模型家族。

我把这次发布叫做"静默伏击"——不是因为我们刻意谋划，而是从 Chat 到 Agent 的范式转变来得太快，快到连我们自己都几乎不敢相信。在这之间，有一段既令人亢奋、又痛苦、又着迷的过程。

这个 1 万亿参数的基座模型，几个月前就开始训练了。最初的目标是长上下文推理效率。Hybrid Attention 架构有真正的创新，不是为了标新立异——而它恰恰成为了 Agent 时代最合适的基础。1M 上下文窗口、MTP 推理实现极低延迟和成本。这些架构决策当时并不流行，却是我们在需要它之前就已经构筑好的结构性优势。

真正改变一切的，是第一次亲身体验一个复杂的 agentic scaffold——我称之为"编排式上下文"。第一天，我就被震住了。我试图去说服团队使用它，没用。于是我下了一道死命令：明天 MiMo 团队里对话数少于 100 条的人，可以走人。这招管用了。一旦团队的想象力被 agentic 系统的可能性点燃，这种想象力就直接转化成了研究速度。

大家问我们为什么跑得这么快。我在做 DeepSeek R1 的时候亲眼见证过这件事。我的真心话是：

- 骨干架构和基础设施研究周期很长。你需要在它带来回报的一年前就坚定战略信念。

- 后训练的敏捷性是另一种能力：用产品直觉驱动评测，压缩迭代周期，提前捕捉范式转变。

- 还有始终不变的东西：好奇心、敏锐的技术直觉、果断的执行力、全力以赴——以及一个容易被低估的东西：对你所构建的这个世界，发自内心的热爱。

我们会开源——等到模型足够稳定、真正配得上开源的时候。

来自北京，深夜，尚未清醒。

发布于北京