VLA与端对端模型解析

#吕俭的汽车科普圈# 今天聊聊VLA。

提及VLA，必须先了解端对端。

端到端模型大多基于大量模仿学习场景，学习到的是：当看到这种画面，人类通常如何操作。
它擅长反应真实视觉信号，但对未显性风险，比如临停车后可能钻出人、围挡内可能窄道，确实欠缺深度推理。

所以端对端模型很像教育小孩子，你给他解释太多意义不大，还不如给他直接指令，或者多演示几遍你是如何处理的，他就会依葫芦画瓢。

所以过去说端对端，非常强调高算力，通过穷举来尽可能学习处理方法。

但这种手把手教的方式，注定了它能触类旁通的能力就不足了。

这也是绝大部分家长痛苦的点，孩子即便手把手教，但世界这么大，人类这么复杂，怎么可能穷举解决方案呢。这就会搞得家长身心俱疲，孩子逆反心理。

那怎么进一步优化这个策略呢？

VLA就出来了。VLA的全称是Vision-Language-Action，顾名思义，视觉-语言/语义-动作。

√ 理解视觉场景: 通过视觉模型（如CNN、Transformer）分析图像或视频，理解场景中的物体、环境和事件。例如，识别道路上的车辆、行人、交通信号灯等。

√ 理解语言指令: 通过语言模型（如Transformer、BERT）理解用户的文本指令或描述，提取关键信息和意图。例如，理解“向左转，避开前方的行人”这样的指令。

√ 生成合理动作: 根据视觉和语言的理解结果，生成合理的动作指令，控制机器人或车辆执行相应的操作。例如，控制车辆转向、加速或减速。

也就是说，VLA 引入了语言描述+规则知识+因果关系，能用推理来填补数据缺失的部分。虽然没看到危险，但场景本身意味着风险，那它就会做有利于解除危机的动作。

到这一步，孩子是真的长大了。

当然了，这种模式是不是绝对完美的。我们现在还不能下定论，毕竟还有另一个很强的模式在推行——WEWA。

VLA的强项则在于“懂语义”，对交互和解释友好。比如，为什么车要这么做，VLA可以解释得更自然。但语言模型擅长文本推理，却缺乏对三维空间的精确感知与运动推演能力。车竟是在真实空间中运动的物体，毫厘之差可能就意味着风险。

WEWA的强项在于，它能用生成式AI系统性制造各种极端场景，再通过强化学习不断补齐长尾问题。简单说，就是“先出真难题，再逼着车学会”。这样一来，长尾风险能被更快覆盖。

当然，这两者也不是绝对对立的。比如WEWA做底座，VLA做增强，或许也是不错的选择。长城汽车最近透露的，他们就尝试把从模型训练到车端推理、解释、执行的链路做成一体化体系：云端承担更复杂的能力生成，车端把关行为的确定性与安全边界，其实这就是融合两种模型优点的意思。

发布于上海