地平线HSD V2.0解析

周末不在深圳，错过了地平线 HSD V2.0 的体验。
昨晚凌晨两点地平线工程同学直接把车送到了，睡懵懵接到了电话，今早打开车机收到了。

HSD 2.0我期待比较高，未来开的应该也会比较多。
我的判断是FSD V13 大家追的比较凶，行业形成的差异也大幅缩小。但是行业追平 V14 目前看还需要一定时间。甚至国内可能要有多个 V13.X 版本的迭代才行。

而现在看 HSD 属于体验、场景表现和技术范式都是追随FSD的，对整个行业都有很好的参考性。
比如最近大家看到 HSD 2.0 很多一段模型直出的掉头，起步车位，再到未来的倒车脱困，这些都是模型里原生的场景。HSD 不断要向 V14 靠近，但是肯定还不是 2.0 一个版本就能做到。

所以行业的技术趋势肯定是走向收敛，大家的技术范式其实都差不多。但各家因为模型结构，过去的累积不同，或者自身定位和推出节奏不同，技术虽然趋同，但方向和体验还是会有很大的差异。

地平线 HSD 是去年开始行业进入天花板的时候，地平线享受到了新模型红利期，因为时间错位带来很多新的模型体验。

回头看 HSD V1.X 的版本主要是地平线HSD模型的修正，2.0 是引入新的技术和场景，比如大家都说的强化学习和世界模型，那地平线加上和其他家又有哪些不同？

首先要修正一段式端到端模型出现的固有问题。
比如同一个路况，有人轻打方向、有人多打点。有人踩刹车轻、有人重。
机器模仿学习不会记住多种操作，只会取中间平均值，输出一个不激进、不保守的折中动作。

这就是平均数问题，这个问题直接导致了模型跷跷板效应，虽然不是安全问题，但很影响体验。比如博弈效率很高，但是没有车流的情况下，车速也不会过高，可能不会超车。

过去我们说的一段端到端，就是共用一个脑子，不是传统规则那样可以分开干活。
现在世界模型和强化学习，就把过去端到端的能力重构了一遍。
但大家注意，地平线不是不做模仿学习，也不是扔掉人类数据，反而是在这基础上做的一次模型的重构。

强化学习的作用，第一个改变了预训练模型的分布，减少这种极端怪异单点行为。
强化学习不靠 “和人做得一样” 打分，是靠最终驾驶收益打分。

人类数据做监督模仿，一旦遇到训练里少见的组合工况，分布会跑偏，出现诡异一些动作，比如突然猛打方向、无故急刹、该避让不动这种，对应大模型里的单点逻辑会胡说八道。

强化学习可以大大改掉这些问题，比如如果你想保留温和的动作，也不会改掉模型舒适特征，如果有大幅度安全避让这些尾部情况，系统也不会卡在平均值上。如果出现异常的单点行为，模型会扣分，会主动把这种低收益的部分压到最低。

所以预训练模型会随机出现单点离谱逻辑、矛盾回答，但是引入人类反馈强化学习后，可以重塑一次输出文本分布，把低质量、矛盾、诡异行为输出概率调低，逻辑一致性变强，和人驾逻辑相通。

从这可以进一步看，其实世界模型和强化学习的好处可以找到一个全局最优的解法。
比如过去可能是分段，每一小段模仿学习推理出最优，但组合起来可能比较割裂。
但是世界模型和强化学习，可以拆解未来更长的时序，把接下来几秒拆成几十上百个连续状态片段，可以说一整条驾驶轨迹切成几十个片段。

强化学习可以在每个分段上，单独计算怎么做收益是最好的，而且人类司机的反应、判断逻辑存在的限制，可能不会像机器一样能够直出一些连贯的分段动作。

但是强化学习可以，它把每一段最优动作拼接出来，形成一套过去靠模仿训练数据里从未出现过的连贯动作，这些样本在过去原始人类数据里面是没有的。

V2.0 我就觉得在过去 V1.X 的基础上，在延时性和场景理解能力上，会超过过去原有的能力，也突破模仿学习出现的单点问题。
它可能不是完美版本，也不是能比拟 V14 的版本，但它作为追随者，在接近 FSD 上可以看到很多可能性。

#地平线正式发布hsdv2.0#

发布于广东