那个被雷军从DeepSeek挖到小米的95后天才少女罗福莉,在X上宣布发布了新一代系统。
我不是IT界人士,也不是那种技术爱好者,所以我不太懂这个。但是我发现一个有意思的地方,如果遮掉头像,仅看文字,你会发现中国的AI从业者和美国那些AI大神并无什么区别。
这篇帖子非常冷静的宣布了一个消息,并且用简短的几句话介绍了开发中的的几个改变,很像META或者X的产品经理发的那种文字。
我很荣幸能看到中国有一些95后在玩cosplay,一些95后在打螺丝,一些95后在炒币,一些95后在AI领域已经成为领军人物。他们/她们都有光明的未来。
附全文翻译:
“MiMo-V2-Pro、Omni 和 TTS 现已发布。这是我们首个真正为智能代理时代打造的全栈模型系列。
我称之为“静默伏击”——并非因为我们早有预谋,而是因为从聊天模式向智能代理模式的转变发生得太快,连我们自己都难以置信。在这期间,我们经历了一个既令人振奋、又充满艰辛、同时又引人入胜的过程。
1T 基础模型数月前便已开始训练。最初的目标是实现长上下文推理的效率。混合注意力机制带来了真正的创新,且未过度扩张——事实证明,它正是代理时代的完美基石。1M 上下文窗口。MTP 推理实现超低延迟与成本。这些架构决策并非追随潮流,而是我们在需求出现前就构建好的结构性优势。
真正改变一切的,是首次体验到复杂的智能体框架——我称之为“协调式上下文”。第一天我就深受震撼。我试图说服团队采用它,但未果。于是我下达了铁律:明天MiMo团队中对话量不足100次的成员可以离职。这招奏效了。当团队的想象力被代理系统所能实现的潜力点燃后,这种想象力便直接转化为研究速度。
人们常问我们为何能行动如此迅速。我在构建DeepSeek R1时亲眼见证了这一切。我的诚恳总结如下:
— 核心架构与基础设施研究具有长周期。你需要在看到回报前一年就具备战略信念。
— 训练后的敏捷性是另一种能力:产品直觉驱动评估,迭代周期被压缩,范式转变得以早期捕捉。
— 以及永恒不变的要素:好奇心、敏锐的技术直觉、果断的执行力、全情投入——还有一点容易被低估的:对你正在构建的世界发自内心的热爱。
我们会开源——当模型足够稳定,值得被分享时。
发自北京,深夜时分,尚未完全清醒。”
