理想“非正式”发布了下一代自动(辅助)驾驶模型——MindVLA-o1。
之所以是非正式,是因为这是理想汽车基座模型负责人詹锟在出席NVIDIA GTC 2026的时候,发表的主题演讲里说的内容。可以说是一个新模型的前瞻吧,不算是对消费者发布,可以理解为那是个“技术研讨会”之类的东西,所以他讲得很专业,并没有用消费者容易看懂的话术来讲。
我刚才读了一遍,大概知道意思了,我非常简短的跟大家总结一下我看到了什么:
1,一个最重要的变化是,他们引入了“预测式隐世界模型”(Predictive Latent World Model)。它的核心思想是:让模型在隐空间中模拟未来,从而更早做出决策,在执行的时候,可以更丝滑。
其实这不算是个什么新鲜东西。
目前WA和VLA是自动驾驶的两个主要路线。我之前写过,WA因为直接“把自己放在虚拟的物理世界中,预测下一步走向,直接生成路径”,所以延迟低,但是对物理世界的理解能力差,需要融合语言模型,理解世界。VLA对世界的理解更透彻,但是需要解决从理解到决策的时间较长的问题。一旦VLA解决了这个问题,它的上限更高。但是在VLA解决这个问题之前,WA的体验也许会领先。
而这次,理想的下一代模型引入的这个“预测式隐世界模型”,显然就是要解决现阶段的决策时间较长、某些情况无法形成有效决策的问题。
那么,理论上,理想的下一代VLA的体验将会有质的突破。当然这只是理论上的,不试车,我不下结论。
2,理想同时也在解决VLA的其它难题,并且都找到了解决方向。
就目前来看,VLA的体验已经很棒,只有在面对一些少见的长尾场景时,表现可能会与平时差距较大。自动驾驶最需要解决的就是这些长尾场景,理想也在努力解决它们。
3,MindVLA-o1的结构是,从【视觉感知】到【世界理解和推理】到【行动决策】再到【强化学习持续优化】以及最终的【系统效率和硬件协同】,这非常像动物的大脑。也就是说,理想在做的不只是汽车的自动驾驶大脑,他们同时也在为所有具身智能体做大脑。他们原话是:如何为机器构建一个可以在真实世界中运行的“数字大脑”。
他们用同一个模型,让机械臂拿起养乐多,往杯子里倒,然后平稳放下。
接下来直接引用原话:
“这意味着,我们可以用同一套基础模型、同一套数据系统,去训练不同形态的物理智能体。所以,从某种意义上说,自动驾驶只是物理AI的一个起点。未来,类似的基础模型将驱动车辆、机器人,以及各种物理系统。而这,也正是我们所说的:新的具身 AI 范式——Physical Agents。”
发布于 北京
