粮厂研究员Will 26-03-19 09:00
微博认证:投资内容创作者

#小米深夜上线三大模型#

罗福莉昨天深夜关于新模型的帖子:

MiMo-V2-Pro、Omni 和 TTS 正式发布。这是我们第一个真正为 Agent 时代而生的全栈模型家族。

我把这次发布叫做"静默伏击"——不是因为我们刻意谋划,而是从 Chat 到 Agent 的范式转变来得太快,快到连我们自己都几乎不敢相信。在这之间,有一段既令人亢奋、又痛苦、又着迷的过程。

这个 1 万亿参数的基座模型,几个月前就开始训练了。最初的目标是长上下文推理效率。Hybrid Attention 架构有真正的创新,不是为了标新立异——而它恰恰成为了 Agent 时代最合适的基础。1M 上下文窗口、MTP 推理实现极低延迟和成本。这些架构决策当时并不流行,却是我们在需要它之前就已经构筑好的结构性优势。

真正改变一切的,是第一次亲身体验一个复杂的 agentic scaffold——我称之为"编排式上下文"。第一天,我就被震住了。我试图去说服团队使用它,没用。于是我下了一道死命令:明天 MiMo 团队里对话数少于 100 条的人,可以走人。这招管用了。一旦团队的想象力被 agentic 系统的可能性点燃,这种想象力就直接转化成了研究速度。

大家问我们为什么跑得这么快。我在做 DeepSeek R1 的时候亲眼见证过这件事。我的真心话是:

- 骨干架构和基础设施研究周期很长。你需要在它带来回报的一年前就坚定战略信念。

- 后训练的敏捷性是另一种能力:用产品直觉驱动评测,压缩迭代周期,提前捕捉范式转变。

- 还有始终不变的东西:好奇心、敏锐的技术直觉、果断的执行力、全力以赴——以及一个容易被低估的东西:对你所构建的这个世界,发自内心的热爱。

我们会开源——等到模型足够稳定、真正配得上开源的时候。

来自北京,深夜,尚未清醒。

发布于 北京