小鹏发布X-Mind_新浪新闻

刚好前段时间 xianming 在 CVPR上说 VLA 和世界模型并不对立，小鹏今天发布 X-Mind，看看X-Mind 到底是什么？

简单来说就是让辅助驾驶模型脑子里放一个低延时的推理模型，用极低token去预测接下来12帧的未来，帮助模型做出更加正确的指令。

辅助驾驶不能只是“看到什么就立刻做什么”，它更应该像人一样，先在脑子里快速想一下：如果我这样开，接下来几秒会发生什么？

这就是论文里说的 Visual Chain-of-Thought视觉版思维链。

绝大部分端到端模型更像是从摄像头画面直接到驾驶动作：看见车道线、红绿灯、前车、行人，然后输出方向盘、刹车、油门信号。但真实道路不是静态图片，而是一个不断变化的物理世界。前车会变道，行人会走出来，红绿灯会变化，旁边车辆可能突然加塞，很多危险的场景其实依赖对看不见的未来去做预测。

所以 X-Mind 的核心思路是：让模型边运行，边预测未来，再做决策。

它把一个 Predictive World Model预测世界模型，塞进模型内部。模型不直接规划路线，而是先生成一个未来 12 帧的“抽象草图”：包括道路结构、车辆行人位置、红绿灯、导航意图、速度限制等。草图不是高清视频，而更像驾驶员脑中的简化地图，因此信息量小、速度快。

一个有价值的实时预测模型更重要的是低延时，X-Mind 把 12 帧未来压缩到 96 个 token，可以低延时实时推理。作为对比的话，如果用原始图像特征，额外 token 数可能到 3584，3D 高斯泼溅则需要3072 token，延迟会很高，不适合上车实时跑。结果显示加入未来抽象草图后，轨迹预测误差更低。

目前大部分的端到端模型其实都是“被动反应式智驾”，依赖外界给的反馈做出下一步动作，主观能动性比较差，有了 X-Mind 开始具备主动预测式的智驾能力，在一些防御性减速的场景中会来的安全性能的提升

人类老司机其实也是这样开的。不是看到障碍物才刹车，而是提前判断：那辆车可能要并线、这个路口可能有人冲出来、前面车流开始减速了。X-Mind 做的事，就是让模型也具备这种“先想几秒”的能力。

发布于上海