随着小鹏X-World和X-Cache两个自动驾驶模型能力底座和推理效率底座的发布,小鹏自动驾驶范式迎来了路线和效率升级的双引擎,对此,我认为有必要针对文远执行创始人韩旭和MMT CEO曹旭东针对小鹏VLA 2.0的言论进行点评和分析:
文远执行创始人韩旭:小鹏VLA2.0糊弄消费者,实际是去掉L的一段式端到端;
链接→http://t.cn/AXJwIq6a
MMT CEO 曹旭东:小鹏VLA 2.0的技术路径本质上是基于Momenta去年发布的R6强化学习大模型理念实现的,并非其对标对象;
两者的现象特征,我认为都是贬低小鹏VLA 2.0,站台华为ADS,对标特斯拉FSD;
一、韩旭是小鹏通用智能中心负责人刘先明的师兄,分别在07年和16年博世毕业,均师从Thoma S Huang,他的点评我认为是:半对半错,精准戳痛点
1. 说对的部分:VLA 2.0 确实 “弱化了显式语言(L)”,更像 “一段式端到端”
传统 VLA(视觉→语言→动作):必须先把视觉转成文字描述(L),再生成动作,多了一层 “翻译官”,有延迟、信息损耗
小鹏 VLA 2.0:砍掉了 “显式语言转译” 环节,变成 “视觉 + 语言(隐式)→动作”,语言不再是中间翻译层,而是变为并行输入、内部隐式推理。
效果:决策延迟从 200ms 降到 80ms,响应快 3 倍,确实更接近 “直接从像素到动作” 的一段式端到端。
韩旭的潜台词:你吹的 “VLA 大模型革命”,本质就是把 L 去掉的简化版端到端,不是什么新物种。
2. 说错 / 偷换概念的部分:不是 “去掉 L”,是 “重构 L 的角色”;
小鹏的真实逻辑:L 没消失,只是不 “说出来” 了—— 语言依然是输入(如语音指令)、内部推理(理解场景语义)的核心,只是不再把推理过程转成文字输出,减少损耗和延迟。
技术架构:不是 “视觉→动作” 的纯一段式,是 “视觉+隐式特征(含语言语义)→动作” ,内部仍有语义理解,只是不显式体现为语言 token,刘先明也说过L是某种程度在自动驾驶过程的理解语境语意的情况,仍然是存在的,人在开车的过程中,一些场景眼睛看的对驾驶有影响的语言也是需要接受和理解的。
韩旭的双标:文远知行自己的 GENESIS,也是 “弱化显式语言、强化端到端”,只是没敢像小鹏这么激进;他说小鹏 “去掉 L”,是故意把 “隐式 L” 等同于 “无 L”,矮化小鹏的架构创新。
二、曹旭东跟着酸:本质上路线焦虑 + 商业恐慌,偷换概念打压
1. 曹旭东的核心论调:VLA 2.0 是 “R6 复刻”、“取巧”、“上限低”
原话:“小鹏 VLA 2.0 本质是去年 Momenta R6 强化学习模型的实现,不是我们的对标对象;我们对标 FSD,小鹏还在补短板”。
潜台词:你不是 “世界模型”,只是去掉 L 的端到端 “小模型”,上限低,不配和 Momenta 的 “世界模型 + 强化学习” 比。
2. 真实动机:怕小鹏的 “轻量级世界模型” 路线颠覆行业
Momenta 路线:多传感器 + 有图 / 无图双兼容 + 世界模型 R7 + 强化学习,主打 “物理世界预测 + 量产数据迭代”,稳扎稳打做 Tier1 供应商。
小鹏路线:纯视觉 + X-World 世界模型 + X-Cache 推理加速 + VLA 2.0,主打 “去高精地图、无规则依赖、本地模型泛化”,直接从 L2 冲 L4。
曹旭东的焦虑:小鹏用 “轻量级世界模型 + 端到端”,实现了 “无图无规则” 的快速泛化,还下放到 15 万级车型—— 这直接冲击 Momenta 的高端供应商定位(客户是 BBA、上汽等),车企会问:“既然小鹏能做到,为什么还要用 Momenta?”
3. 技术双标:Momenta 也在做 “弱化语言的端到端”,却骂小鹏 “取巧”
事实:Momenta 的 R7,同样弱化显式语言、强化视觉 - 动作直接映射,只是分阶段落地,没敢一步到位。
双标:曹旭东说小鹏 “去掉 L 是取巧”,但自己做同样的事,却叫 “世界模型进化”—— 本质是不允许小鹏走 “跳跃式路线”,维护自己的渐进式路径依赖。
三、小鹏的真突破,两人的双标与恐惧
1. 小鹏 VLA 2.0 的真突破(被低估的部分)
架构革命:不是简单 “去掉 L”,是把语言从 “翻译层” 变成 “语义输入层”,实现 “所见即所行”,延迟降到 80ms,接近人类本能反应。
世界模型赋能:X-World 提供长时序预判能力(能看 24 秒未来),VLA 2.0 不是 “反应式”,是 “预判式”—— 这是和传统端到端(只能看当下)的本质区别,我们看到一些小视频堵车,VLA2.0决策走不堵车的路线就是其中的涌现,要是人驾司机代入其中,也会做同样的选择,规则和依赖高精地图是绝对不会做出这样的决策;
无图无规则落地:X-Cache 把 200 亿参数大模型推理速度提升 12 倍,车端本地无网无图运行,全球泛化边际成本极低 —— 这是 Momenta、文远知行目前做不到的,全球的高精地图,没有任何企业可以无死角扫描,包括特斯拉,这条路线注定是死胡同。
2. 韩旭、曹旭东的共同双标
对 “端到端” 的双重标准:自己做是 “安全改良”,小鹏做是 “下限低、不安全”;
对 “世界模型” 的定义权争夺:自己的是 “真世界模型”,小鹏的是 “伪世界模型 / 去掉 L 的端到端”;
对 “落地速度” 的矛盾态度:自己慢是 “稳”,小鹏快是 “激进、吹牛皮”。
3. 核心本质:路线之争,不是纯技术对错
小鹏:押注 “大模型 + 世界认知” 的跳跃式进化,目标是 “一地训练、全球泛化、无网无图无规则运行”;
第二代 VLA 是感知决策中枢,直面用户输出高阶智驾能力;
X-World 构建虚实映射与长时序推演能力,是模型持续进化的核心底座;
X-Cache 作为推理加速引擎,为大规模仿真与车端部署筑牢效率根基。
三者深度耦合,小鹏完成从数据采集、模型训练、虚拟验证到车端迭代的全链路闭环,推动自动驾驶从单点功能优化,正式迈入世界模型驱动的原生智驾范式。
文远 / Momenta:押注 “数据 + 仿真 + 分阶段落地” 的渐进式进化,目标是 “先 L2 量产、再 L4 商业化,稳字当头”,全球泛化能力低,即使在中国也无法无高精地图图,无网,无规则,随时随地出发,更别说在全球快速运行了。
两人 “阴阳” 小鹏,不是因为小鹏不行,是因为小鹏的路线太激进、进展太快,快到要颠覆他们的商业基本盘。
四、总结:
韩旭说 “去掉 L 的一段式”,是精准但双标的技术矮化;曹旭东跟着酸,是路线焦虑 + 商业恐慌的舆论防御。
小鹏 VLA 2.0 不是简单 “去掉 L”,是重构语言角色 + 世界模型赋能 + 端侧推理加速的范式升级;它的上限,不是由 “有没有 L” 决定,而是由X-World 的世界认知能力、X-Cache 的推理效率、海量真实 + 虚拟数据决定,这是小鹏拔高竞争壁垒,提升全球自动驾驶能力竞争水平的必选之路 —— 这些,恰恰是文远知行、Momenta 目前的短板。
时间会证明:智驾终局一定是 “世界模型 + 端到端”,只是小鹏走了一条更险、但可能更快的路
#曹旭东说丰田铂智7将上r7大模型##文远知行##小鹏汽车[超话]#
