Mt慢谈 26-03-04 14:27

小鹏刚开了第二代 VLA 的发布会,而且也有了媒体试驾。

我只能说实际表现确实很不一样,而且它应该算是完完全全证明了自己之前说的理念,那就是:VLA 并不需要真的输出 L 才能思考。

1️⃣没有 L 为什么还叫 VLA?

自动驾驶行业有一种极其奇特的习惯。

每当一套新的技术方案出现,市场和营销会选一个词,开始向大众解释这个词是什么意思,为什么旧的词已经过时了。

VLA,就是这条鄙视链上最新的一环。

Vision,Language,Action。

视觉输入,语言理解,动作输出。

它看上去无懈可击,逻辑也很通顺,之前的 VA 模型不能说话,VLA 加上了 L,能说话也能用语言思考,那肯定比之前强啊。

所以这套三段式架构一经提出,大量的团队都在尝试,甚至已经有量产车实现了车端的语言 CoT, 辅助驾驶系统真的能边开车边给你分析为什么要这么开。

然后,小鹏在 2025 年末的时候提出了一个东西,我们的 VLA 没有「语言转译」环节,而且没有显性语言 CoT 才是更好的选择。

等等。这不对劲。

如果语言被去掉了,为什么还叫 VLA,而不叫 VA?

2️⃣语言,从来不是目的

语言,对于人类到底意味着什么?

语言是通讯工具。

当你的大脑处理完一段信息,需要把它传递给另一个人的大脑时,你需要把这段信息编码成文字或声音。

这是一种高度「有损的压缩」。

你看到夕阳,你说「很美」,这两个字里丢掉了颜色的渐变、空气的湿度、风吹过耳廓的温度。

这套压缩对人类来说值得,因为我们别无选择。我们的带宽就这么宽。

对车就完全不一样了。

3️⃣L 的悖论

VLA 在被拿到自动驾驶领域的时候,有很多畅想。

把大语言模型装进车里,遇到复杂路况,让模型先用文字思考,再把结果用来指导生成轨迹。

这套流程在论文里或者 demo 视频里看起来都很好。然后,当你把它装上真车,就会发现不对劲了,因为现在的芯片性能不够。

从摄像头捕捉到危险,到文字 CoT 完成推理,到最终输出轨迹,最后底盘执行动作,哪怕在目前量产车的旗舰芯片上,这条链路的延迟也是几百毫秒,极端情况下接近一秒。

在时速 100 公里的高速公路上,1 秒钟 = 27.8 米。
文字 CoT 还没想完,车已经来不及反应了。

所以在量产车免不了妥协,大部分时间 L 都没有出现,都是 VA 来做及时响应,只有「在需要的时候」,才让 L 加入开始用 CoT 进行思考。

这就有了一个逻辑悖论。
L 的价值在哪里?

原本 VLA 的畅想是加入了 L, 也就能在高度复杂的场景下,调用常识和推理能力来辅助决策,

但实际上这些场景,L 来不及思考。

所以在真正决定「刹不刹车、往哪儿躲」的电光火石之间,实际上模型的链路几乎总是 V→A.

也就是说,如果你「希望 L 在真正需要它的时候提前上线」,就必须先预测「什么时候会遇到复杂场景」,让模型在危险到来之前就启动语言推理。

但如果模型已经可以预测「这个场景需要格外小心」,那这种预判能力本身就已经是一种感知与理解能力了,也就是说,V→A 的感知层已经在工作,L 的参与不过是对同一认知再包装一次。

L 需要时来不了,来得了时不需要。

这就是最大的悖论。

4️⃣那么,小鹏去掉了语言转译,为什么还叫 VLA?

可以先看一个更熟悉的例子。

当我们训练一个视觉语言大模型时,喂进去的是互联网上几乎全部的文字、图像和视频,模型在学会「如何生成一句话」的同时,在它数十亿乃至上百亿参数构成的网络里,会涌现出一类更底层的能力:

「如果 A 发生,B 大概率随之而来。」

我们平时看到的只是最末端的那层,也就是模型生成的一段文本,但其实这些能力真正存在的位置,是迷行中间各层的隐空间和权重矩阵里,而不是最后那一层的语言输出本身。

所以,语言只是帮我们「看见」了这些能力,并不是能力本身。

放回小鹏这边,大概可以这么概括:第二代 VLA 不再是 V → L → A,而更接近 V + L → A。

在真正需要毫秒级反应的控制路径上,已经看不到任何显式的语言 CoT, 输入是一串多模态 Token,输出是轨迹和动作,整个链条在高维特征空间里完成,中间没有「写一段文字」的环节。

当然,语言没有完全消失,小鹏也可以可以说话,只是说话这件事,更多交给座舱侧的 VLM 去做,而不是强行让负责开车的那颗 VLA 去边开边说。

车主问一句「刚才为什么减速」,或者发一个「带我去一个适合看夜景的地方」这种复合指令时,座舱里的语言头会被唤醒,去解析意图、串联子任务、然后搜索导航告诉 VLA 应该去哪。

副驾秘书(VLM)负责聊天,主驾驶的司机(VLA)专心开车,它们俩能用高维度的 L 高效交流,听起来这也更合理。

5️⃣思考和逻辑的载体,并不一定是语言,也可以是视觉 CoT

这时候自然会有人说,没有了 L 就没有了 CoT, 也就没有逻辑思考能力,不能「预判」。

这确实是对的,但是只对了一半。

遇到盲区、无保护左转、匝道汇流这类需要「预判」而不只是「反应」的场景,纯粹的 V→A 直觉依然可能会犯错。

毕竟直觉是基于「当前帧」的,更全面的驾驶决策需要的是「未来帧」的推演。

所以小鹏 VLA 2.0 选择的是「视觉思维」,也就是让模型用画面思考,而不是用文字思考。

小鹏官方给出了一个数据,32 倍超密视觉思维链(Visual CoT),相比传统 CoT 预测误差降低 33%,让模型用画面思考,而不是用文字思考。

视觉 CoT 本质上是把当前的视觉 Token 和几个候选的动作 Token(保持车距,或者提前变道)一起送进模型,让网络在隐空间里同时「想象」出多条未来轨迹,对应多个候选场景:

如果 2 秒后才变道,未来几帧的周围占用分布如何?是否已经没有安全空间?

如果现在就变道,车道线、邻车 3D 位置会如何演变?

如果一直跟车,安全是安全了,效率是不是惨不忍睹?

这些被「想象」出来的未来,并不是视频,而是高维的、带有车道边界、3D box、占用概率的特征张量,它们构成了这辆车在当前时刻的视觉时空思维链。

接着,系统把这些候选未来送进一个价值评估头,从安全、效率、舒适、合规多个维度打分,选出得分最高的那一条轨迹,然后把这条轨迹再翻译成底层的动作 Token 得到方向盘角度、油门刹车曲线,最后交给执行器去跑。

你在车机屏幕上,只看到车平滑地选择了「更像老司机」的那条路。

你看不到的是,在你意识到货车很慢之前,模型已经在脑子里预演了 32 种可能的未来。

这就是视觉 CoT,它绕过了语言,直接在物理的维度上做推理,这样的效率远高于输出文字 CoT, 而且能一直生效,避免了 L 什么时候该参与的悖论。

6️⃣视觉 CoT 的前提是,原生多模态物理世界大模

小鹏第二代 VLA 是原生多模态物理世界大模型,这到底该怎么理解?

我们先从大家熟悉的领域来举例子,LLM 的 Token 是文字,VLM 的 Token 是文字加图像块。那么,原生车载多模态大模型的 Token 呢?

在车的语境里,小鹏至少把这些东西都加了进去:

多路视觉:8 路环视的视频帧,被切成图像块,变成视觉 Token。

听觉与语言:车外 / 车内的语音、导航文字、规则描述,变成语言 Token。

其他连续特征:很大概率包括自车速度、加速度、方向盘角度这类物理量,被编码成状态 Token。

这些东西经过原生多模态 Tokenizer 之后,全部被打磨成同一尺寸的高维向量,被扔进同一个 Transformer 里,让注意力机制自由地在不同模态之间拉关系。

这就喝早期 VLA 有了很大的区别。

以前是「图像 → 先单独过一套视觉骨干 → 再翻译成文字 → 再丢给语言模型」,中间有一段显式的「语言转译」通道;

现在是「所有模态先统统 Token 化,再一起进入一个统一的大脑」,不再有那条强制的「图像变文字再变控制」路径。

感官不再经过语言中转,而是在底层就合流成同一种数学格式,这就是「原生」。

而这套系统的输出,理论上也是双向的。

它既可以输出动作 Token(下一时刻方向盘转多少度),也可以在理论上输出视觉 Token(下一时刻的画面应该长什么样),这种双向性,是旧 VLA 没有的能力,也是整个「物理世界模型」概念得以成立的根基。

物理直觉的涌现,也从此而来。

想象一下,你是一个从出生那天起就装在车上的摄像头,每天二十四小时不停地看世界。你看到前车急刹,你看到车头下沉,你看到距离以一种非线性的方式在缩短。你看到这些场景几亿次。

有人突然给你一个任务,当收到「刹车指令」这个动作 Token 时,预测接下来 100 毫秒画面会怎么样变化。

你会预测出车头继续下沉,轮胎形变,画面里的前车视角大小急剧增加,即便你从来没背过 F=ma。
当小鹏把 3 万卡云端算力集群、亿级里程的真实驾驶视频,以及模拟世界生成的数据,全部倒进这套原生多模态大模型里,让它反复做这样一种事:

给定当前视觉 / 状态 / 历史动作 Token → 预测下一刻视觉 / 占用 / 轨迹 Token。

它就被迫从数据里自发提炼出一套对物理世界演化规律的「内在直觉」,动量是怎么守恒的,摩擦力大概怎么作用,刚体碰撞后会朝哪个方向弹开……

这些东西,很难再用自然语言完整写出来,但会以一种极其抽象的数学形式,凝固在模型的权重矩阵里,这就是「物理世界模型」真正的含义:

它没有硬编码的物理公式,只有神经网络拟合的物理规律。

它没有针对某一款车写的规则,只有经验性的权重。

因为这些直觉存在于权重里,所以它在理论上可以迁移到其他执行体上,你换个底盘,换个轮距,甚至换成一个六轴机械臂,底下会有一层适配层做坐标 / 动力学转换,上面的「物理直觉」照样可以派上用场。

这就是为什么小鹏它不仅可以用在车上,而且可以跑在机器人上,或者飞行器上。

⏹文章有点长,我们来梳理一下

为什么去掉了语言转译,还叫 VLA?

因为 L 不再是实时翻译,而是一种在训练期注入、在慢路径交互时显形的认知底座,它的灵魂留在了权重里,躯体被从毫秒级决策链路上撤掉了,而且在需要的时候依然可以用语言交流。

没有显式语言 CoT,它怎么思考?

它用视觉 CoT 思考:在隐空间里同时想象出数十种未来场景,对这些「视觉思维链」打分,再选出一条轨迹执行,整个链条是在物理特征空间里完成的,不经过文字中转。

为什么原生多模态车载大模型可以称为物理世界模型?

因为当你让一个统一的 Token 化大模型,在「多模态状态 + 动作 → 下一刻世界状态」这个任务上有了巨量的积累,它就会从数据里涌现出一套对物理因果的内在权重,它没有人类写的公式,但是符合现实世界的统计规律。

这和 LLM 的突破逻辑一模一样。
只不过,模型不学怎么说话,学的是怎么开车。

#小鹏第二代VLA发布##小鹏第二代VLA妈妈都爱开的国民智驾#

发布于 马来西亚