CVPR2026上,刘先明分享了小鹏的进展,以及对基座模型的思考:
小鹏的技术路径并非在 VLA 和世界模型中二选一,而是将两者结合,构成物理世界基座模型。两者训练目标不同,互为补充。
第二代 VLA 负责“如何行动”。通过人类驾驶行为的输入(视频/指令)与输出(动作)进行建模。这种方式的挑战是人类行为数据在时间上是稀疏的,只能提供结果监督。
世界模型负责“理解行动后的世界变化”。采用类似大语言模型预测“下一个 Token”的逻辑,在海量视频上密集预测下一帧画面或下一个物理状态。提供高密度的训练信号。
小鹏通过四篇学术论文,来展示世界模型的具体作用:
可控生成(X-World): 给定一个驾驶动作,模型能生成符合物理规律的未来视频。用于闭环仿真和造数据。
长时序推演(X-Foresight): 将视觉与动作结合,预测未来场景演化,直接给 VLA 的控车决策提供支持。
加速推理(X-Cache): 提出跨段块级缓存技术,极大减少重复计算,将推理速度最高提升 2.7倍。
主动思考(X-mind 待发): 解决端到端模型的“黑盒”痛点,输出决策的中间推理过程,提升可解释性。
在训练端,小鹏的单版模型训练量超 4万亿 Token,集群 GPU 硬件利用率达 90%。
VLA2.0+图灵芯片,相较于开源模型+通用芯片,计算利用率从 22.8% 提升至 82.5%,推理时延从 800毫秒 压缩至极限的 80毫秒。
小鹏的最终目标,是 L4 级自动驾驶及具身智能。
发布于 北京
