小鹏VLA与世界模型

CVPR2026上，刘先明分享了小鹏的进展，以及对基座模型的思考：

小鹏的技术路径并非在 VLA 和世界模型中二选一，而是将两者结合，构成物理世界基座模型。两者训练目标不同，互为补充。

第二代 VLA 负责“如何行动”。通过人类驾驶行为的输入（视频/指令）与输出（动作）进行建模。这种方式的挑战是人类行为数据在时间上是稀疏的，只能提供结果监督。

世界模型负责“理解行动后的世界变化”。采用类似大语言模型预测“下一个 Token”的逻辑，在海量视频上密集预测下一帧画面或下一个物理状态。提供高密度的训练信号。

小鹏通过四篇学术论文，来展示世界模型的具体作用：

可控生成（X-World）：给定一个驾驶动作，模型能生成符合物理规律的未来视频。用于闭环仿真和造数据。

长时序推演（X-Foresight）：将视觉与动作结合，预测未来场景演化，直接给 VLA 的控车决策提供支持。

加速推理（X-Cache）：提出跨段块级缓存技术，极大减少重复计算，将推理速度最高提升 2.7倍。

主动思考（X-mind 待发）：解决端到端模型的“黑盒”痛点，输出决策的中间推理过程，提升可解释性。

在训练端，小鹏的单版模型训练量超 4万亿 Token，集群 GPU 硬件利用率达 90%。
VLA2.0+图灵芯片，相较于开源模型+通用芯片，计算利用率从 22.8% 提升至 82.5%，推理时延从 800毫秒压缩至极限的 80毫秒。

小鹏的最终目标，是 L4 级自动驾驶及具身智能。

发布于北京