关于辅助驾驶端到端与VLA(一)
最近2个月试了几家的端到端和VLA辅助驾驶,也听了很多不同的声音,都在试图证明自己的技术路线选择是最合理的。
从技术代际来看VLA是端到端的下一代,实际量产情况复杂很多,光是端到端就有
「两段式端到端」,感知和规控是两张神经网络;
「重后处理一段式端到端」,一张神经网络直接出行车轨迹,但怎么挑更好的轨迹,轨迹怎么更平滑,得靠工程师写的模块;
「轻后处理一段式端到端」,应该是当前最像特斯拉FSD的方案)。
从成熟度、普及度来看,又是两段式端到端>重后处理一段式端到端>轻后处理一段式端到端>VLA。
目前个人印象最深的是地平线的HSD端到端,试的过程里能感觉到系统很安定,对其他交通参与者的意图和行动轨迹预测很少出错,车的横纵向控制做得也很舒服,很少有方向盘闯动/打猛了,油门和刹车踩重了的情况。我得到的信息是HSD一张网拉通,代码很少,主要是对轨迹进行安全约束。按这个说法,HSD应该归在轻后处理一段式端到端。
地平线认为HSD这种才应该叫真正的一段式端到端,因为它对横纵向的控制是一体的,而不是解耦后分别优化再拼到一块,后者延迟更高,横纵向可能不协调。地平线的人说他们发现降低延迟、提高帧率,对控车效果的提升非常明显。
但一段式端到端的训练难度很大,训练的时候没法保证模型的能力是稳定提升的,因为性质确实更接近炼丹了。一个地平线的朋友跟我说,一段式端到端的HSD开发了大半年,这一版之前工程师们都是一副被虐得不行的样子,很多时候模型都是按下葫芦浮起瓢。这种时候,除了看卡够不够多,数据够不够硬,就看团队的技术信仰了。
然后,通过苏箐的朋友圈,以及几位地平线的朋友的表述,地平线目前对智驾的技术栈发展趋势判断很明显了——行业的当务之急是把端到端的潜力充分挖掘,把控车、即时反应做到极致。他们给的论据也很有意思:不是都喜欢拿人开车来做比喻吗,那人是怎么进化来的?先是有发达的小脑把运动能力拉起来,再有发达的大脑来支持复杂的思考。而目前辅助驾驶的主要矛盾是小脑还不够好使。
所以余凯今年4月在采访的时候有个当时看起来比较奇怪的表述:地平线的技术架构是双系统,但系统2不是大语言模型,而是强化学习。Momenta的曹旭东之前也说过类似的,强化学习的收益比引入LLM大。本质上是同一个判断,现阶段辅助驾驶通过强化学习试错掌握的“本能反应”,比通过大语言模型进行长思考更重要。
地平线的人认为从终局来看,语言对自动驾驶来说一定是重要的,不然HSD不会在端到端网络之外,外挂一个VLM模型。那些很复杂的场景,比如有大段文字引导的标识牌,有特殊灯控的路口,都有很难搞的高级语义,都需要VLM介入。但对他们来说,目前引入语言这个模态,能解决的是少数问题,大部分还是要靠把模仿学习和强化学习做好吃透。
而端到端真正的大问题,是模型学习时的因果混淆问题,也是真正的大牛们目前努力的方向。这个问题也是VLA一派试图崛起的突破口。
@罗松松是真名@不是郑小康 @本诺__ @电动知士大雨 @飞机先生_
发布于 上海
