小鹏理想华为VLA路线分歧

争议VLA：小鹏、理想向左华为向右（上）

摘自于雷 AutoReport 汽车产经

2025年12月22日，长城汽车发布魏牌蓝山智驾进阶版，完成了VLA上车元年的收官。

这一年，理想、小鹏、奇瑞和长城都已经推出了自己的VLA量产车型，小米、零跑等公司也有相关布局。

VLA显然成为了2025年的汽车圈热词。它得益于深度集成进神经网络的“视觉-语言-动作”模块，可以像GPT一样对驾驶行为进行深度思考，通过“直行变为红灯-红灯需要停车-控制刹车”的逻辑推理，和人类一样凭借认知去开车。

事实上，特斯拉经历完表现平平的FSD V13，也选择放弃坚持两年的端到端路线，FSD V14版本已改为类似VLA的架构。

这也是针对FSD V13的黑箱困境——即使参数量相比V12提高3倍，仍然无法杜绝闯红灯、逆行等低级问题。

特斯拉FSD引入VLA之后，小鹏汽车董事长兼CEO何小鹏近期也是亲赴北美体验，随后公开喊话FSD V14和特斯拉Robotaxi已经没有区别，L2和L4可用同一套系统实现。

理想汽车智能驾驶研发高级副总裁郎咸朋也发文表示，VLA就是自动驾驶最好的模型方案。

但即使如此，VLA的反对声音依旧不少。

“华为不会走向VLA的路径，我们认为这样看似取巧，其实并不是走向真正自动驾驶的路径。华为更看重WA，也就是World Action，中间省掉language这个环节。”华为智能汽车解决方案BU CEO靳玉志说道。

这指向的正是VLA的最大弊端，依靠语言模型进行推理，就需要视觉到语言、语言到动作的两次翻译，而翻译就会导致误差，反应也更慢。何小鹏也曾坦言：“一段1200多字的文字描述，也无法精准地‘翻译’一个十几秒视频。”

因此，有人认为“世界模型“才是未来。可以将这理解成是一种极致的端到端，既能用输入信息直接映射输出结果，又完全理解真实世界的运行规律，瞬间响应且完全可靠。

只是做出这样一个模型，需要给它灌输和世界有关的全部知识（参数量），再用难以计数的算力支持思考。因此，世界模型目前还只能部署在云端，难以上车。

“我认为想要做百辆无人车以上，世界模型最关键，对其他公司可能做VLA模型卖车最关键，大家选择不同的路线是因为目标不同。”小马智行CTO楼天城表示。

[ 端到端很颠覆，但并不完美 ]

2023年8月26日，马斯克在个人社交账号开启了一场45分钟的直播：乘坐一辆老款特斯拉Model S游览旧金山，自己只做安全员，交给仅有2000多行代码的FSD Bate V12系统驾驶。

从他全程举起的手机视角可以看到，这辆Model S顺利通过无保护左转、斑马线、施工区域等复杂场景，遇到行人还可以等待让行，几乎可以应对全部路况，只有一次红灯没有停车而被接管。

这种能力在当年还很少见，只是大家更关心另外一个问题：为什么2000多行代码就能做出这样的效果？之前那么多年都在干什么？

“V12系统从头到尾都是通过AI实现。我们没有编程，没有让程序员写任何一行代码来识别道路、行人等。全部交给了神经网络。”马斯克在直播时回应。

他所指的编程代码正是人工规则，这也是提升早期智驾系统能力的原始途径。

当时采用的分治算法，就相当于一个“人工智障”机器人，只有执行能力，无法自主思考。

所以，想让它认识一个物体，知道红灯应该停车，都需要像对待“智障”一样，通过人工规则一条一条的教会它。教会的越多，能力也就越强。直到2024年，依然有人采用这种路径。

根据何小鹏2024年AI Day上的说法，如果要做到无限接近人类驾驶员的水平，需要大约10亿条规则，而当时稳定的系统只有10万条左右，相当于只完成了万分之一。

也就说明，想通过人力穷尽所有场景，写完所有规则，着实有些异想天开，所以特斯拉转向了端到端。

比起分治算法，端到端就聪明多了，能像小孩子一样拥有模仿学习的能力。因此，不再需要依靠人工规则死记硬背，给它观看大量人类的驾驶视频，就能自发将环境和驾驶行为联系起来，找出“这种场景下，应该这么做”的规律。

端到端的架构也非常简化。尤其是特斯拉的一段式，从传感器图像输入到控制指令输出，中间只经过深度学习模型，取消了全部人工规则，代码量骤减99%。

尽管这是一个更有前景的方案，但同样存在弊端：只能看到观测到输入和输出两组数据，中间工作就像在一个不透明的黑色箱体里进行，完全不可见，出现错误也就难以追溯到是哪个环节导致的。

这也是困扰端到端的一个主要问题，传统方案每一步运算清晰可见，出现问题可以直接优化具体模块。而端到端出现问题，因为不清楚出错的地方，就只能不断投喂正确应对这一场景的优质视频片段，祈祷它能照着学习。效率低不说，效果还不可控。

所以，如果想解决这个问题，是不是可以想办法将它的决策过程翻译出来？基于这种思路，最先出现的是端到端+VLM。

VLM即视觉-语言模型，相当于给端到端套了一个思维链“外挂”：同步接收传感器、导航等输入数据，利用语言模型（类似GPT）的推理能力，生成类似“路口变为红灯，应该减速停车”的场景描述和处理意见，给端到端的行为做出备注，极端场景或许还能参考它的靠谱决策。

这种方式解决了端到端缺少显式表达的问题，但VLM本质上还是一个独立运行的模型，跟不上端到端的节奏（端到端做完5次决策，VLM可能只来得及生成1个文本）。

因为运算的慢，VLM的决策虽然最终也会传给端到端，但非复杂场景都会直接忽略，仅作为棘手问题的兜底，联合训练和优化也没预想中那么好做。

如果参照“感知-判断-决策-控制”智能驾驶传统框架，VLM其实只能覆盖前三个阶段，缺乏对控制过程的理解。要是问题出在控制上，VLM就会因为看不懂控制信号这种“外语”，无法分析原因，进行优化。

因此，一个看起来更加合理的架构就出现了：再加上生成控制信号的能力，就可以打通最后一环，通过自动化的数据闭环，实现低成本、高效率的自我迭代了。

这就是VLA视觉-语言-动作模型。

[ VLA一边拆黑箱，一边加重担 ]

如果用一句话描述：VLA既有全程可求导的端到端神经网络形式，又有大语言模型的推理能力。

能力上，它可以看做VLM的进化，补全了动作特征的对齐。动作解码器（A）的引入，使语言模型不必再局限于生成类似“向右变道”这种难以对应为轨迹的文本，而是可以换成一种更加简洁高效，代表方向盘转角、刹车幅度等具体动作的特性向量，消除了自然语言和控制信号间的语义鸿沟。

这也意味着从感知到控制的每一个步骤，都是采用了可微分的数学计算，没有了之前的抽象语义理解过程，做到了推理过程的全程可求导。在遇到不如预期的驾驶行为时，就能从控制信号反向追溯错误源头，进行优化。

架构上，它又与VLM有着本质的不同。视觉感知、语言理解和动作生成都不再是外挂模块，而是深度集成进统一的神经网络，因此语言模型也可以顺理成章发挥更大作用：原本只是解释端到端的行为，现在已经集成进模型中，不如直接让它来主导决策。

这样的提升无疑是巨大的，语言模型擅长推理，可以像老司机一样用脑思考决策。而传统端到端只能不断拟合视频片段中的行为，寻找表面规律，缺乏底层的智能逻辑。

2025年，VLA已经出现了爆发式增长，理想、小鹏、奇瑞和长城等都已经走在这条道路上。就连最早将端到端落地到车的特斯拉，也引入了类似的架构——通过全景分割结果、3D占用结果、3D高斯渲染结果、语言信息等中间输出结果，对最终轨迹进行推理。

既然得到了广泛认同，那VLA能否成为智能驾驶的最终解呢？也不尽然，它仍然存在短板。

VLA依赖于中间的大语言模型，而语言模型只能理解和输出token（可以是自然语言，也可以是一串符号），所以处理每一帧画面，就需要一次将“全部输入数据转化为token进行推理，再将token转化为控制信号”的完整过程。

然而，不管是传输数据、token转化，还是推理过程，都会带来巨大的算力消耗与带宽吞吐量压力，这恰恰是追求毫秒级响应的智驾系统最不想看到的。

以理想为例，曾经布置在单颗Orin-X芯片上的VLM只能以3Hz左右运行，MindVLA虽然换上了新一代Thor-U，并通过MoE架构、Sparse Attention等稀疏化设计降低推理负担，但也只提升到10Hz左右，和传统端到端的运行频率差距仍然明显。

实际上，这已经是VLA摒弃自然语言，转而采用一种信息含量更高、能隐式表达的抽象token，从而显著降低算力开销和延迟后的结果了。只是，这种token虽然具有更高的保真度，但仍无法避免原始信息的损失。

何小鹏曾举例量化这一过程的难度：“VLA模型中间涉及两次语言转换，这会带来大量信息损耗。比如，一段1200多字的文字描述，也无法精准地‘翻译’一个十几秒视频。”

一些热门AI视频创作者也有类似的抱怨，用语言还原自己想象中的画面非常困难。即使是仅有几秒的特效视频，也要用写满一整页Word的文字去约束生成效果，而这第一次得到的往往还不是想要的画面，还要再调整很多回。

发布于河南