高进修
26-06-29 18:26 微博认证:汽车博主

刚好前段时间 xianming 在 CVPR上说 VLA 和世界模型并不对立,小鹏今天发布 X-Mind,看看X-Mind 到底是什么?

简单来说就是让辅助驾驶模型脑子里放一个低延时的推理模型,用极低token去预测接下来12帧的未来,帮助模型做出更加正确的指令。

辅助驾驶不能只是“看到什么就立刻做什么”,它更应该像人一样,先在脑子里快速想一下:如果我这样开,接下来几秒会发生什么?

这就是论文里说的 Visual Chain-of-Thought视觉版思维链。

绝大部分端到端模型更像是从摄像头画面直接到驾驶动作:看见车道线、红绿灯、前车、行人,然后输出方向盘、刹车、油门信号。但真实道路不是静态图片,而是一个不断变化的物理世界。前车会变道,行人会走出来,红绿灯会变化,旁边车辆可能突然加塞,很多危险的场景其实依赖对看不见的未来去做预测。

所以 X-Mind 的核心思路是:让模型边运行,边预测未来,再做决策。

它把一个 Predictive World Model预测世界模型,塞进模型内部。模型不直接规划路线,而是先生成一个未来 12 帧的“抽象草图”:包括道路结构、车辆行人位置、红绿灯、导航意图、速度限制等。草图不是高清视频,而更像驾驶员脑中的简化地图,因此信息量小、速度快。

一个有价值的实时预测模型更重要的是低延时,X-Mind 把 12 帧未来压缩到 96 个 token,可以低延时实时推理。作为对比的话,如果用原始图像特征,额外 token 数可能到 3584,3D 高斯泼溅则需要3072 token,延迟会很高,不适合上车实时跑。结果显示加入未来抽象草图后,轨迹预测误差更低。

目前大部分的端到端模型其实都是“被动反应式智驾”,依赖外界给的反馈做出下一步动作,主观能动性比较差,有了 X-Mind 开始具备主动预测式的智驾能力,在一些防御性减速的场景中会来的安全性能的提升

人类老司机其实也是这样开的。不是看到障碍物才刹车,而是提前判断:那辆车可能要并线、这个路口可能有人冲出来、前面车流开始减速了。X-Mind 做的事,就是让模型也具备这种“先想几秒”的能力。

发布于 上海