魏牌全新蓝山智能进阶版正式上市,限时焕新价27.58-30.28万元,顾名思义,辅助驾驶芯片换了英伟达Thor-U,更重要的是软件架构方面,切换到了VLA大模型。
VLA是个什么概念呢,我来简单盘一下,1分钟让大家看懂。
VLA是Vision-Language-Action的缩写,也就是视觉、语言、行动模型。它是目前被业界普遍认为最终将通往自动驾驶的大模型,是理论上限最高的路线。
VLA的上一代辅助驾驶软件架构我们习惯称之为“端到端”(E2E)大模型,就是输入给它原始数据,它直接出行车轨迹。相比更早的模块化结构,链路更短,延迟更低,模型本身能力更强,所以能实现城区复杂路况的更好体验。比如遇到占用车道的违停车,绕行会比较丝滑,一般不会停下来傻等。所以,“端到端”在城区里已经处于可用的状态,不会像更早时期那样,遇到个复杂点的情况就卡住,通行效率太低,你就不爱用了。
但是,“端到端”的原理还是模仿学习,模型本身并不理解这个世界,只是通过对大量人类驾驶数据的模仿,套用在自己当下感知到的环境,触类旁通,生成驾驶决策。不好理解的话,我打个比方:
“端到端”类似于一只猴子在驾校学开车,教练告诉它:这样右拐,有人就等或者绕,有车就超……它是能照做的,包括下次遇到类似情况它也能会,但是它不知道为什么要这么做,因为它无法系统性的理解交通法规和文明驾驶。所以,想提升猴子的能力,只能是让它学习尽量多的复杂情况,这样再遇到同类情况它才知道怎么处理。当学习过的复杂情况足够多,你会发现猴子也能开得挺好。可是,你喂给它的情况再多,也不可能覆盖实际道路上所有的情况。所以,它最终还是不可能处理所有情况的。此外,因为不是真的理解世界,每次都是从“经验”里找答案,所以它的决策过程可能会显得比较纠结,动作可能会不连贯,实际表现为:方向盘连续小幅左右调整,油门踩得不够果断等。
而到了VLA,重要的东西就是L,Language,语言。人类之所以能够理解世界,就是因为有语言。你能学会交规,看懂路牌,理解别人描述的道路情况,就是因为语言。VLA和“端到端”从底层逻辑上的不同就是:VLA驾驶车辆不再基于模仿学习,而是强化学习。再打个比方:你就想象你自己去驾校学完了理论知识,然后去道路上一遍一遍的训练,最终你的驾驶技能就越来越强。VLA就是这套逻辑,跟人类是一样的。所以,你说它是不是理论上限非常高?
写到这里我插一句,上面的“端到端”之所以加引号,是因为VLA其实也是端到端,这俩本身不是一个维度上的词儿,只是在辅助驾驶发展的历程中,“端到端”这个描述模型训练与建模范式的词儿,被当成了一种技术路线标签来使用。但这本身没有恶意,只是在当时的环境中,为了更好的说明才这么叫的。所以咱们现在讨论的,严格来说不是VLA和“端到端”,而(大体上)是“基于模仿学习的端到端”和“基于强化学习的端到端(VLA)”,大家能分辨就好了。
OK,继续说VLA。这个玩意儿也不是一上来就非常强大的,就像人从驾校学出来,刚上路,它不可能立刻就像老司机那样开车。随着训练的加深,它会越来越强。现阶段,市面上的VLA都不是“训练到头儿”的样子,道理很简单,人类的驾驶技术有上限吗?没有的。这玩意儿是上不封顶的。所以,每个车企有自己的阈值——训练到什么状态可以量产上车。
全新蓝山智能进阶版的VLA,从他们目前给出的信息看,VLA该有的都有:
1,界面上会有CoT思维链卡片,就是实时的在告诉你,系统看到了什么,做了什么判断,最终输出了什么决策。这就是VLA的一大优势:可解释性强。你知道系统做决策的依据是什么,方便感兴趣的用户理解,也让工程师可以更方便去改进它;
2,防御性驾驶。这也是VLA的优势,因为它更懂这个世界,比如它知道高架桥底下的某一个小桥洞可能会出来车,经过强化训练,它就可以做到像人一样,提前减速观察,或者提前变道,离桥洞远点,让出空间;
3,语音控车。比如你可以跟车说:开快一点、向右变道等,这也是VLA自身就具备的优势。还可以期待后面的更新,车会能懂越来越多的指令;
4,特殊场景理解。比如施工区域、窄路和坑洼路等。这也是VLA的优势,能以人类的方式理解世界,随着强化训练的加深,它的应对方式会越来越从容。
严谨起见,没试过车的时候,我不能只从理论上就给全新蓝山智能进阶版的VLA的实际表现下结论。不过,很显然,作为传统车企,魏牌这次走在了很多新势力的前面。VLA的落地难度比之前的“端到端”高了几个量级,可见魏牌在辅助驾驶方面的技术积累还是非常深厚的。#魏建军赌上姓氏造车后悔了吗 ##蓝山VLA大模型上车首秀#
