理想发布自动驾驶模型MindVLA-o1

理想“非正式”发布了下一代自动（辅助）驾驶模型——MindVLA-o1。
之所以是非正式，是因为这是理想汽车基座模型负责人詹锟在出席NVIDIA GTC 2026的时候，发表的主题演讲里说的内容。可以说是一个新模型的前瞻吧，不算是对消费者发布，可以理解为那是个“技术研讨会”之类的东西，所以他讲得很专业，并没有用消费者容易看懂的话术来讲。

我刚才读了一遍，大概知道意思了，我非常简短的跟大家总结一下我看到了什么：

1，一个最重要的变化是，他们引入了“预测式隐世界模型”（Predictive Latent World Model）。它的核心思想是：让模型在隐空间中模拟未来，从而更早做出决策，在执行的时候，可以更丝滑。
其实这不算是个什么新鲜东西。
目前WA和VLA是自动驾驶的两个主要路线。我之前写过，WA因为直接“把自己放在虚拟的物理世界中，预测下一步走向，直接生成路径”，所以延迟低，但是对物理世界的理解能力差，需要融合语言模型，理解世界。VLA对世界的理解更透彻，但是需要解决从理解到决策的时间较长的问题。一旦VLA解决了这个问题，它的上限更高。但是在VLA解决这个问题之前，WA的体验也许会领先。
而这次，理想的下一代模型引入的这个“预测式隐世界模型”，显然就是要解决现阶段的决策时间较长、某些情况无法形成有效决策的问题。
那么，理论上，理想的下一代VLA的体验将会有质的突破。当然这只是理论上的，不试车，我不下结论。

2，理想同时也在解决VLA的其它难题，并且都找到了解决方向。
就目前来看，VLA的体验已经很棒，只有在面对一些少见的长尾场景时，表现可能会与平时差距较大。自动驾驶最需要解决的就是这些长尾场景，理想也在努力解决它们。

3，MindVLA-o1的结构是，从【视觉感知】到【世界理解和推理】到【行动决策】再到【强化学习持续优化】以及最终的【系统效率和硬件协同】，这非常像动物的大脑。也就是说，理想在做的不只是汽车的自动驾驶大脑，他们同时也在为所有具身智能体做大脑。他们原话是：如何为机器构建一个可以在真实世界中运行的“数字大脑”。
他们用同一个模型，让机械臂拿起养乐多，往杯子里倒，然后平稳放下。
接下来直接引用原话：
“这意味着，我们可以用同一套基础模型、同一套数据系统，去训练不同形态的物理智能体。所以，从某种意义上说，自动驾驶只是物理AI的一个起点。未来，类似的基础模型将驱动车辆、机器人，以及各种物理系统。而这，也正是我们所说的：新的具身 AI 范式——Physical Agents。”

发布于北京