小鹏谈世界模型

轰鸣的小跑SVM

26-06-04 21:39 微博认证：汽车达人微博新知博主汽车博主

#小鹏特斯拉英伟达高管同框##小鹏第三次受邀出席国际学术顶会CVPR#
小鹏、特斯拉、英伟达高管在 CVPR 上“同框”的背后，意味着自动驾驶的主题已经在悄然发生变化。以前大家喜欢讨论功能本身，或者体验本身，但小鹏在 CVPR 2026 讲的是更底层的一个问题---自动驾驶系统到底要不要建立自己的“世界模型”。

智驾走到今天，表层问题是体验差异，但深层问题是模型到底有没有理解物理世界。
如果模型只是看见一个场景，然后模仿人类司机输出一个动作，它当然可以在大量的高频场景里都有不错的成绩，但进入复杂的长尾场景，比如鬼探头、多车博弈，真正的问题才会暴露出来---它知道“此刻该怎么做”，但未必真正知道“我这么做之后，世界会怎么变化”。

知其然和知其所以然，就是 VLA 和世界模型的分工。
目前XP的第二代 VLA，更像是一种“行动模型”。
它从人类驾驶行为中学习，完成了视频流、指令、动作输出的统一建模，核心能力是学习“如何行动”。也就是说，车看到前方有车、旁边有空隙的时候，它会判断现在应当如何执行动作。而世界模型解决的是另一件事---它问的是“如果我这样开，未来几秒、十几秒，甚至更长时间里，场景会如何演化”。

一个是在应对当下，一个是在预测未来。
我们都知道就智驾的今天来说，识别出一辆车、一条线、一个红绿灯，都只是基础能力而已。而理解因果论是真正的课题---靠规则是穷尽不完的，靠纯模仿数据，也无法完全学透。因为真实世界不是静态的，它天然是一个持续演化的物理系统。
世界模型的本质。是在端到端的基础上，再拼上一块积木，也就是从“行为模仿”走向“后果推演”。这也是为什么世界模型和 VLA 不是互相替代的关系。VLA 像司机，世界模型像司机脑子里的预判系统。VLA 决定动作，世界模型理解动作之后的世界变化。前者负责“开”，后者负责“想”，而知其所以然之后，我们也就知道了“知其然”这件事有多靠谱了。

二者结合，自动驾驶才有机会从反应式驾驶，进一步走向预判式驾驶。

世界模型不是简单的视频生成---这是一个很容易被误读的事情。
很多人看到“生成未来视频”，第一反应会认为这和游戏引擎渲染仿真差不多，其实不是。真正有价值的，是生成“被动作约束的未来”。也就是说，模型是在给定当前多摄像头历史、车辆动作、道路条件、交通参与者状态之后，推演如果车这样走，未来场景会怎样变化。

这背后的技术意义是很大的。传统自动驾驶开发，依赖真实道路采样。大量的车队外出收集问题---还记得24年初XP开城的时候吗？当时好多工程师放弃了休假，大战那么好长时间。这个路线在智驾的初期相当简单粗暴有效，但我们也知道它解决不了危险场景的问题，你有办法连续撞车几千次几万次吗？

越难的场景，越需要数据；但越危险、越罕见的场景，越难获得高质量数据。
这是真正的悖论，也是世界模型要解决的矛盾。

如果一个模型能够在可控条件下生成未来场景，并且可以调整天气、时间、道路元素、动态交通参与者、车辆动作，那它就不只是“生成器”，它也可以是自动驾驶研发里的虚拟训练场。过去我们说仿真，很多时候是规则驱动、资产驱动、场景工程驱动。工程师要定义场景，搭建环境，设置车辆行为，但世界模型式的仿真，更接近数据驱动和物理推演驱动。它可以让模型从海量真实世界数据里学习世界运行规律，再用于闭环测试、策略训练和长尾扩展。

这意味着自动驾驶研发的核心效率，可能会从“谁有更多的路测样车”转向“谁能更高效地把真实数据变成可推演的训练世界”。这才是小鹏这次想表达的深层野心。

小鹏提到 X-World、X-Foresight、X-Cache 这几条线，其实都可以放在一个框架里理解。

X-World 更像是在构建一个可控的物理世界。
它负责让模型在多视角、多场景、多条件下生成未来，给训练和验证提供环境。
X-Foresight 是把“远期预判”能力塞进模型内部，让系统不仅看眼前几帧，还要理解更长时间维度里的因果演化。
X-Cache 则解决一个现实问题：世界模型如果太慢、太贵、跑不动，那它只能停留在论文和 Demo 里，如何把推理成本降下来，是支撑大规模仿真、回归测试和强化学习的关键

这三个东西合在一起，才是一个完整的技术栈：有世界，有预判，有工程效率。

这也是小鹏这次 CVPR 信息里最有价值的地方：智驾研发如何成为一个飞轮。
真实用户产生数据。
VLA 从人类驾驶行为中学习。
世界模型把真实数据扩展成可控的未来图景。
仿真系统验证和放大长尾。
模型再回到车端。
车端继续产生新数据。

如果这个飞轮跑得足够快，智驾能力的进化就不再需要堆车堆人堆规则了，靠模型自己不断理解物理世界就足够了。这也是为什么小鹏把自动驾驶说成是基座模型落地的第一步，而不是终点。因为一旦模型真的具备对物理世界的理解和行动能力，它理论上就不只属于汽车，也可以迁移到机器人、飞行汽车等更多具身智能载体。

车只是最复杂、最商业化、也最能产生高质量物理交互数据的入口。
所以小鹏这次在 CVPR 上讲世界模型，表面看是在讲自动驾驶，实际上是在讲下一代物理 AI 的底座。

雄关漫道真如铁，而今迈步从头越啊。

发布于广东