时睦华 25-08-26 20:50
微博认证:汽车博主

辅助驾驶的分水岭好像要来了。
华为说了,不用VLA,用WA。

原来大家方案虽然有别但也没差那么多,架构主体都是模仿学习人类驾驶方式的“端到端”。使用体验区别没那么大。而以后VLA和WA的区别可能会很大。

理想现在率先把VLA量产上车了,这个东西可以简单理解为它像人类一样去看世界,因为有L(语言)在,它理解世界的方式跟人更像,能看懂交通标志、颜色、信号灯啥的。而WA是构建一个实时的世界模型,但里面的元素都是“像素化”的,它知道这些东西在哪儿,怎么运动,但不知道这些东西是啥。

所以VLA的优势是,你可以跟ta交流,比如让ta“停在前面那个白车后面”。因为系统用语言来理解世界、预测、执行,所以你知道ta每一步要干啥,为啥那么干。这也更有利于未来推动法规落地,因为系统不是黑盒,更容易评判和定责什么的。相比之下WA的系统是黑盒,你只知道ta干了什么,但是不知道ta为啥那么干。你也没办法跟ta交流,因为ta眼里的世界跟你的世界不一样,你俩不在一个维度上。

不过WA也有明显优势,那就是决策速度特别快,因为ta不需要把看到的东西转化成语言去理解。ta只看动态几何概率,而不是像VLA那样看懂这是个啥东西,然后做逻辑推理。所以WA从感知到决策的过程就很短,时延就少,反应速度更快。

其实特斯拉的主架构应该就是WA,所以特斯拉辅助驾驶开起来就很“老司机”,犹豫的时候少,时间也短。但是,ta看不懂各种标志,所以容易违章。

可以简单理解为,VLA是个人,WA是个没有感情的驾驶机器。

当然,不管用哪个架构,车企肯定都会努力优化它的短板,比如理想会努力优化VLA的时延。
其实他们已经把VLA的很多核心问题都解决了,比如模型太大(蒸馏后部署在本地了),时延和稳定性问题(在生成轨迹这一步外挂Diffusion扩散模型)。特斯拉应该也是外挂了一个负责看交通标志、看交警手势的模型,在一定程度上弥补WA“看不懂世界”的短板。

由于大家方向已经有了明显不同,未来几年我们可能会看到:
1,功能上区隔很大。比如在理想的车上你可以跟小理司机交流,告诉他怎么开车。但是有的车可能会在很长一段时间里没有这个功能。不过最终也应该会用一些多模块的方法来实现,不然根本走不到自动驾驶;
2,各家的辅助驾驶/自动驾驶能力可能会间歇性拉开,甚至越拉越大;
3,VLA可能是“慢热型”,它上限更高,但是初期可能不如WA来得那么“方便”。

目前,大家对未来的预测还不一致,有人认为WA更可能走到自动驾驶,有人认为VLA才是自动驾驶的终极解决方案。当然,不论是哪个,基本不可能是单一架构的,应该都是混合架构,比如VLA + Diffusion。
我之所以说VLA上限更高,是因为ta天生就更像人类,智能化程度更高。假如大家都解决了自家架构的短板,VLA最终会胜出。所以,主要的悬念不在方向,在于哪家能在自己的方向上走得更远。

发布于 北京