争议VLA:小鹏、理想向左 华为向右(上)
摘自 于雷 AutoReport 汽车产经
2025年12月22日,长城汽车发布魏牌蓝山智驾进阶版,完成了VLA上车元年的收官。
这一年,理想、小鹏、奇瑞和长城都已经推出了自己的VLA量产车型,小米、零跑等公司也有相关布局。
VLA显然成为了2025年的汽车圈热词。它得益于深度集成进神经网络的“视觉-语言-动作”模块,可以像GPT一样对驾驶行为进行深度思考,通过“直行变为红灯-红灯需要停车-控制刹车”的逻辑推理,和人类一样凭借认知去开车。
事实上,特斯拉经历完表现平平的FSD V13,也选择放弃坚持两年的端到端路线,FSD V14版本已改为类似VLA的架构。
这也是针对FSD V13的黑箱困境——即使参数量相比V12提高3倍,仍然无法杜绝闯红灯、逆行等低级问题。
特斯拉FSD引入VLA之后,小鹏汽车董事长兼CEO何小鹏近期也是亲赴北美体验,随后公开喊话FSD V14和特斯拉Robotaxi已经没有区别,L2和L4可用同一套系统实现。
理想汽车智能驾驶研发高级副总裁郎咸朋也发文表示,VLA就是自动驾驶最好的模型方案。
但即使如此,VLA的反对声音依旧不少。
“华为不会走向VLA的路径,我们认为这样看似取巧,其实并不是走向真正自动驾驶的路径。华为更看重WA,也就是World Action,中间省掉language这个环节。”华为智能汽车解决方案BU CEO靳玉志说道。
这指向的正是VLA的最大弊端,依靠语言模型进行推理,就需要视觉到语言、语言到动作的两次翻译,而翻译就会导致误差,反应也更慢。何小鹏也曾坦言:“一段1200多字的文字描述,也无法精准地‘翻译’一个十几秒视频。”
因此,有人认为“世界模型“才是未来。可以将这理解成是一种极致的端到端,既能用输入信息直接映射输出结果,又完全理解真实世界的运行规律,瞬间响应且完全可靠。
只是做出这样一个模型,需要给它灌输和世界有关的全部知识(参数量),再用难以计数的算力支持思考。因此,世界模型目前还只能部署在云端,难以上车。
“我认为想要做百辆无人车以上,世界模型最关键,对其他公司可能做VLA模型卖车最关键,大家选择不同的路线是因为目标不同。”小马智行CTO楼天城表示。
[ 端到端很颠覆,但并不完美 ]
2023年8月26日,马斯克在个人社交账号开启了一场45分钟的直播:乘坐一辆老款特斯拉Model S游览旧金山,自己只做安全员,交给仅有2000多行代码的FSD Bate V12系统驾驶。
从他全程举起的手机视角可以看到,这辆Model S顺利通过无保护左转、斑马线、施工区域等复杂场景,遇到行人还可以等待让行,几乎可以应对全部路况,只有一次红灯没有停车而被接管。
这种能力在当年还很少见,只是大家更关心另外一个问题:为什么2000多行代码就能做出这样的效果?之前那么多年都在干什么?
“V12系统从头到尾都是通过AI实现。我们没有编程,没有让程序员写任何一行代码来识别道路、行人等。全部交给了神经网络。”马斯克在直播时回应。
他所指的编程代码正是人工规则,这也是提升早期智驾系统能力的原始途径。
当时采用的分治算法,就相当于一个“人工智障”机器人,只有执行能力,无法自主思考。
所以,想让它认识一个物体,知道红灯应该停车,都需要像对待“智障”一样,通过人工规则一条一条的教会它。教会的越多,能力也就越强。直到2024年,依然有人采用这种路径。
根据何小鹏2024年AI Day上的说法,如果要做到无限接近人类驾驶员的水平,需要大约10亿条规则,而当时稳定的系统只有10万条左右,相当于只完成了万分之一。
也就说明,想通过人力穷尽所有场景,写完所有规则,着实有些异想天开,所以特斯拉转向了端到端。
比起分治算法,端到端就聪明多了,能像小孩子一样拥有模仿学习的能力。因此,不再需要依靠人工规则死记硬背,给它观看大量人类的驾驶视频,就能自发将环境和驾驶行为联系起来,找出“这种场景下,应该这么做”的规律。
端到端的架构也非常简化。尤其是特斯拉的一段式,从传感器图像输入到控制指令输出,中间只经过深度学习模型,取消了全部人工规则,代码量骤减99%。
尽管这是一个更有前景的方案,但同样存在弊端:只能看到观测到输入和输出两组数据,中间工作就像在一个不透明的黑色箱体里进行,完全不可见,出现错误也就难以追溯到是哪个环节导致的。
这也是困扰端到端的一个主要问题,传统方案每一步运算清晰可见,出现问题可以直接优化具体模块。而端到端出现问题,因为不清楚出错的地方,就只能不断投喂正确应对这一场景的优质视频片段,祈祷它能照着学习。效率低不说,效果还不可控。
所以,如果想解决这个问题,是不是可以想办法将它的决策过程翻译出来?基于这种思路,最先出现的是端到端+VLM。
VLM即视觉-语言模型,相当于给端到端套了一个思维链“外挂”:同步接收传感器、导航等输入数据,利用语言模型(类似GPT)的推理能力,生成类似“路口变为红灯,应该减速停车”的场景描述和处理意见,给端到端的行为做出备注,极端场景或许还能参考它的靠谱决策。
这种方式解决了端到端缺少显式表达的问题,但VLM本质上还是一个独立运行的模型,跟不上端到端的节奏(端到端做完5次决策,VLM可能只来得及生成1个文本)。
因为运算的慢,VLM的决策虽然最终也会传给端到端,但非复杂场景都会直接忽略,仅作为棘手问题的兜底,联合训练和优化也没预想中那么好做。
如果参照“感知-判断-决策-控制”智能驾驶传统框架,VLM其实只能覆盖前三个阶段,缺乏对控制过程的理解。要是问题出在控制上,VLM就会因为看不懂控制信号这种“外语”,无法分析原因,进行优化。
因此,一个看起来更加合理的架构就出现了:再加上生成控制信号的能力,就可以打通最后一环,通过自动化的数据闭环,实现低成本、高效率的自我迭代了。
这就是VLA视觉-语言-动作模型。
[ VLA一边拆黑箱,一边加重担 ]
如果用一句话描述:VLA既有全程可求导的端到端神经网络形式,又有大语言模型的推理能力。
能力上,它可以看做VLM的进化,补全了动作特征的对齐。动作解码器(A)的引入,使语言模型不必再局限于生成类似“向右变道”这种难以对应为轨迹的文本,而是可以换成一种更加简洁高效,代表方向盘转角、刹车幅度等具体动作的特性向量,消除了自然语言和控制信号间的语义鸿沟。
这也意味着从感知到控制的每一个步骤,都是采用了可微分的数学计算,没有了之前的抽象语义理解过程,做到了推理过程的全程可求导。在遇到不如预期的驾驶行为时,就能从控制信号反向追溯错误源头,进行优化。
架构上,它又与VLM有着本质的不同。视觉感知、语言理解和动作生成都不再是外挂模块,而是深度集成进统一的神经网络,因此语言模型也可以顺理成章发挥更大作用:原本只是解释端到端的行为,现在已经集成进模型中,不如直接让它来主导决策。
这样的提升无疑是巨大的,语言模型擅长推理,可以像老司机一样用脑思考决策。而传统端到端只能不断拟合视频片段中的行为,寻找表面规律,缺乏底层的智能逻辑。
2025年,VLA已经出现了爆发式增长,理想、小鹏、奇瑞和长城等都已经走在这条道路上。就连最早将端到端落地到车的特斯拉,也引入了类似的架构——通过全景分割结果、3D占用结果、3D高斯渲染结果、语言信息等中间输出结果,对最终轨迹进行推理。
既然得到了广泛认同,那VLA能否成为智能驾驶的最终解呢?也不尽然,它仍然存在短板。
VLA依赖于中间的大语言模型,而语言模型只能理解和输出token(可以是自然语言,也可以是一串符号),所以处理每一帧画面,就需要一次将“全部输入数据转化为token进行推理,再将token转化为控制信号”的完整过程。
然而,不管是传输数据、token转化,还是推理过程,都会带来巨大的算力消耗与带宽吞吐量压力,这恰恰是追求毫秒级响应的智驾系统最不想看到的。
以理想为例,曾经布置在单颗Orin-X芯片上的VLM只能以3Hz左右运行,MindVLA虽然换上了新一代Thor-U,并通过MoE架构、Sparse Attention等稀疏化设计降低推理负担,但也只提升到10Hz左右,和传统端到端的运行频率差距仍然明显。
实际上,这已经是VLA摒弃自然语言,转而采用一种信息含量更高、能隐式表达的抽象token,从而显著降低算力开销和延迟后的结果了。只是,这种token虽然具有更高的保真度,但仍无法避免原始信息的损失。
何小鹏曾举例量化这一过程的难度:“VLA模型中间涉及两次语言转换,这会带来大量信息损耗。比如,一段1200多字的文字描述,也无法精准地‘翻译’一个十几秒视频。”
一些热门AI视频创作者也有类似的抱怨,用语言还原自己想象中的画面非常困难。即使是仅有几秒的特效视频,也要用写满一整页Word的文字去约束生成效果,而这第一次得到的往往还不是想要的画面,还要再调整很多回。
