飞机先生_
26-06-30 13:18 微博认证:深圳市新出行科技有限公司 主编

周末不在深圳,错过了地平线 HSD V2.0 的体验。
昨晚凌晨两点地平线工程同学直接把车送到了,睡懵懵接到了电话,今早打开车机收到了。

HSD 2.0我期待比较高,未来开的应该也会比较多。
我的判断是FSD V13 大家追的比较凶,行业形成的差异也大幅缩小。但是行业追平 V14 目前看还需要一定时间。甚至国内可能要有多个 V13.X 版本的迭代才行。

而现在看 HSD 属于体验、场景表现和技术范式都是追随FSD的,对整个行业都有很好的参考性。
比如最近大家看到 HSD 2.0 很多一段模型直出的掉头,起步车位,再到未来的倒车脱困,这些都是模型里原生的场景。HSD 不断要向 V14 靠近,但是肯定还不是 2.0 一个版本就能做到。

所以行业的技术趋势肯定是走向收敛,大家的技术范式其实都差不多。但各家因为模型结构,过去的累积不同,或者自身定位和推出节奏不同,技术虽然趋同,但方向和体验还是会有很大的差异。

地平线 HSD 是去年开始行业进入天花板的时候,地平线享受到了新模型红利期,因为时间错位带来很多新的模型体验。

回头看 HSD V1.X 的版本主要是地平线HSD模型的修正,2.0 是引入新的技术和场景,比如大家都说的强化学习和世界模型,那地平线加上和其他家又有哪些不同?

首先要修正一段式端到端模型出现的固有问题。
比如同一个路况,有人轻打方向、有人多打点。有人踩刹车轻、有人重。
机器模仿学习不会记住多种操作,只会取中间平均值,输出一个不激进、不保守的折中动作。

这就是平均数问题,这个问题直接导致了模型跷跷板效应,虽然不是安全问题,但很影响体验。比如博弈效率很高,但是没有车流的情况下,车速也不会过高,可能不会超车。

过去我们说的一段端到端,就是共用一个脑子,不是传统规则那样可以分开干活。
现在世界模型和强化学习,就把过去端到端的能力重构了一遍。
但大家注意 ,地平线不是不做模仿学习,也不是扔掉人类数据,反而是在这基础上做的一次模型的重构。

强化学习的作用,第一个改变了预训练模型的分布,减少这种极端怪异单点行为。
强化学习不靠 “和人做得一样” 打分,是靠最终驾驶收益打分。

人类数据做监督模仿,一旦遇到训练里少见的组合工况,分布会跑偏,出现诡异一些动作,比如突然猛打方向、无故急刹、该避让不动这种,对应大模型里的单点逻辑会胡说八道。

强化学习可以大大改掉这些问题,比如如果你想保留温和的动作,也不会改掉模型舒适特征,如果有大幅度安全避让这些尾部情况,系统也不会卡在平均值上。如果出现异常的单点行为,模型会扣分,会主动把这种低收益的部分压到最低。

所以预训练模型会随机出现单点离谱逻辑、矛盾回答,但是引入人类反馈强化学习后,可以重塑一次输出文本分布,把低质量、矛盾、诡异行为输出概率调低,逻辑一致性变强,和人驾逻辑相通。

从这可以进一步看,其实世界模型和强化学习的好处可以找到一个全局最优的解法。
比如过去可能是分段,每一小段模仿学习推理出最优,但组合起来可能比较割裂。
但是世界模型和强化学习,可以拆解未来更长的时序,把接下来几秒拆成几十上百个连续状态片段,可以说一整条驾驶轨迹切成几十个片段。

强化学习可以在每个分段上,单独计算怎么做收益是最好的,而且人类司机的反应、判断逻辑存在的限制,可能不会像机器一样能够直出一些连贯的分段动作。

但是强化学习可以,它把每一段最优动作拼接出来,形成一套过去靠模仿训练数据里从未出现过的连贯动作,这些样本在过去原始人类数据里面是没有的。

V2.0 我就觉得在过去 V1.X 的基础上,在延时性和场景理解能力上,会超过过去原有的能力,也突破模仿学习出现的单点问题。
它可能不是完美版本,也不是能比拟 V14 的版本,但它作为追随者,在接近 FSD 上可以看到很多可能性。

#地平线正式发布hsdv2.0#

发布于 广东