轰鸣的小跑SVM
26-06-04 21:39 微博认证:汽车达人 微博新知博主 汽车博主

#小鹏特斯拉英伟达高管同框##小鹏第三次受邀出席国际学术顶会CVPR#
小鹏、特斯拉、英伟达高管在 CVPR 上“同框”的背后,意味着自动驾驶的主题已经在悄然发生变化。以前大家喜欢讨论功能本身,或者体验本身,但小鹏在 CVPR 2026 讲的是更底层的一个问题---自动驾驶系统到底要不要建立自己的“世界模型”。

智驾走到今天,表层问题是体验差异,但深层问题是模型到底有没有理解物理世界。
如果模型只是看见一个场景,然后模仿人类司机输出一个动作,它当然可以在大量的高频场景里都有不错的成绩,但进入复杂的长尾场景,比如鬼探头、多车博弈,真正的问题才会暴露出来---它知道“此刻该怎么做”,但未必真正知道“我这么做之后,世界会怎么变化”。

知其然和知其所以然,就是 VLA 和世界模型的分工。
目前XP的第二代 VLA, 更像是一种“行动模型”。
它从人类驾驶行为中学习,完成了视频流、指令、动作输出的统一建模,核心能力是学习“如何行动”。也就是说,车看到前方有车、旁边有空隙的时候,它会判断现在应当如何执行动作。而世界模型解决的是另一件事---它问的是“如果我这样开,未来几秒、十几秒,甚至更长时间里,场景会如何演化”。

一个是在应对当下,一个是在预测未来。
我们都知道就智驾的今天来说,识别出一辆车、一条线、一个红绿灯,都只是基础能力而已。而理解因果论是真正的课题---靠规则是穷尽不完的,靠纯模仿数据,也无法完全学透。因为真实世界不是静态的,它天然是一个持续演化的物理系统。
世界模型的本质。是在端到端的基础上,再拼上一块积木,也就是从“行为模仿”走向“后果推演”。这也是为什么世界模型和 VLA 不是互相替代的关系。VLA 像司机,世界模型像司机脑子里的预判系统。VLA 决定动作,世界模型理解动作之后的世界变化。前者负责“开”,后者负责“想”,而知其所以然之后,我们也就知道了“知其然”这件事有多靠谱了。

二者结合,自动驾驶才有机会从反应式驾驶,进一步走向预判式驾驶。

世界模型不是简单的视频生成---这是一个很容易被误读的事情。
很多人看到“生成未来视频”,第一反应会认为这和游戏引擎渲染仿真差不多,其实不是。真正有价值的,是生成“被动作约束的未来”。也就是说,模型是在给定当前多摄像头历史、车辆动作、道路条件、交通参与者状态之后,推演如果车这样走,未来场景会怎样变化。

这背后的技术意义是很大的。传统自动驾驶开发,依赖真实道路采样。大量的车队外出收集问题---还记得24年初XP开城的时候吗?当时好多工程师放弃了休假,大战那么好长时间。这个路线在智驾的初期相当简单粗暴有效,但我们也知道它解决不了危险场景的问题,你有办法连续撞车几千次几万次吗?

越难的场景,越需要数据;但越危险、越罕见的场景,越难获得高质量数据。
这是真正的悖论,也是世界模型要解决的矛盾。

如果一个模型能够在可控条件下生成未来场景,并且可以调整天气、时间、道路元素、动态交通参与者、车辆动作,那它就不只是“生成器”,它也可以是自动驾驶研发里的虚拟训练场。过去我们说仿真,很多时候是规则驱动、资产驱动、场景工程驱动。工程师要定义场景,搭建环境,设置车辆行为,但世界模型式的仿真,更接近数据驱动和物理推演驱动。它可以让模型从海量真实世界数据里学习世界运行规律,再用于闭环测试、策略训练和长尾扩展。

这意味着自动驾驶研发的核心效率,可能会从“谁有更多的路测样车”转向“谁能更高效地把真实数据变成可推演的训练世界”。这才是小鹏这次想表达的深层野心。

小鹏提到 X-World、X-Foresight、X-Cache 这几条线,其实都可以放在一个框架里理解。

X-World 更像是在构建一个可控的物理世界。
它负责让模型在多视角、多场景、多条件下生成未来,给训练和验证提供环境。
X-Foresight 是把“远期预判”能力塞进模型内部,让系统不仅看眼前几帧,还要理解更长时间维度里的因果演化。
X-Cache 则解决一个现实问题:世界模型如果太慢、太贵、跑不动,那它只能停留在论文和 Demo 里,如何把推理成本降下来,是支撑大规模仿真、回归测试和强化学习的关键

这三个东西合在一起,才是一个完整的技术栈:有世界,有预判,有工程效率。

这也是小鹏这次 CVPR 信息里最有价值的地方:智驾研发如何成为一个飞轮。
真实用户产生数据。
VLA 从人类驾驶行为中学习。
世界模型把真实数据扩展成可控的未来图景。
仿真系统验证和放大长尾。
模型再回到车端。
车端继续产生新数据。

如果这个飞轮跑得足够快,智驾能力的进化就不再需要堆车堆人堆规则了,靠模型自己不断理解物理世界就足够了。这也是为什么小鹏把自动驾驶说成是基座模型落地的第一步,而不是终点。因为一旦模型真的具备对物理世界的理解和行动能力,它理论上就不只属于汽车,也可以迁移到机器人、飞行汽车等更多具身智能载体。

车只是最复杂、最商业化、也最能产生高质量物理交互数据的入口。
所以小鹏这次在 CVPR 上讲世界模型,表面看是在讲自动驾驶,实际上是在讲下一代物理 AI 的底座。

雄关漫道真如铁,而今迈步从头越啊。

发布于 广东