#吕俭的汽车科普圈# 今天聊聊VLA。
提及VLA,必须先了解端对端。
端到端模型大多基于大量模仿学习场景,学习到的是:当看到这种画面,人类通常如何操作。
它擅长反应真实视觉信号,但对未显性风险,比如临停车后可能钻出人、围挡内可能窄道,确实欠缺深度推理。
所以端对端模型很像教育小孩子,你给他解释太多意义不大,还不如给他直接指令,或者多演示几遍你是如何处理的,他就会依葫芦画瓢。
所以过去说端对端,非常强调高算力,通过穷举来尽可能学习处理方法。
但这种手把手教的方式,注定了它能触类旁通的能力就不足了。
这也是绝大部分家长痛苦的点,孩子即便手把手教,但世界这么大,人类这么复杂,怎么可能穷举解决方案呢。这就会搞得家长身心俱疲,孩子逆反心理。
那怎么进一步优化这个策略呢?
VLA就出来了。VLA的全称是Vision-Language-Action,顾名思义,视觉-语言/语义-动作。
√ 理解视觉场景: 通过视觉模型(如CNN、Transformer)分析图像或视频,理解场景中的物体、环境和事件。例如,识别道路上的车辆、行人、交通信号灯等。
√ 理解语言指令: 通过语言模型(如Transformer、BERT)理解用户的文本指令或描述,提取关键信息和意图。例如,理解“向左转,避开前方的行人”这样的指令。
√ 生成合理动作: 根据视觉和语言的理解结果,生成合理的动作指令,控制机器人或车辆执行相应的操作。例如,控制车辆转向、加速或减速。
也就是说,VLA 引入了语言描述+规则知识+因果关系,能用推理来填补数据缺失的部分。虽然没看到危险,但场景本身意味着风险,那它就会做有利于解除危机的动作。
到这一步,孩子是真的长大了。
当然了,这种模式是不是绝对完美的。我们现在还不能下定论,毕竟还有另一个很强的模式在推行——WEWA。
VLA的强项则在于“懂语义”,对交互和解释友好。比如,为什么车要这么做,VLA可以解释得更自然。但语言模型擅长文本推理,却缺乏对三维空间的精确感知与运动推演能力。车竟是在真实空间中运动的物体,毫厘之差可能就意味着风险。
WEWA的强项在于,它能用生成式AI系统性制造各种极端场景,再通过强化学习不断补齐长尾问题。简单说,就是“先出真难题,再逼着车学会”。这样一来,长尾风险能被更快覆盖。
当然,这两者也不是绝对对立的。比如WEWA做底座,VLA做增强,或许也是不错的选择。长城汽车最近透露的,他们就尝试把从模型训练到车端推理、解释、执行的链路做成一体化体系:云端承担更复杂的能力生成,车端把关行为的确定性与安全边界,其实这就是融合两种模型优点的意思。
