蔚来推强化学习智驾新版本

和大家讲一个小故事：

去年10月，晚点报道了一篇对少卿的专访，少卿讲了很多和强化学习相关的内容。但其实这篇内容的采访时间，是9月中旬，彼时我们刚刚做了一个很「艰难」的决定，就是把一个已经迭代好、临近全量推送的版本给毙掉，将全部的方案转向一个刚刚在8月底完成基础验证的版本。

这个版本，就是今天大家拿到的、实现完整强化学习的版本。

放弃一个相对成熟的方案，转向一个行业里还没有先例的方案，这绝对是一个非常大胆的选择。因为强化学习虽然已经在大语言模型的范畴里得到了应用，但将其应用于真实世界，包括智能驾驶和机器人，仍然处于非常前沿的研究与探索阶段。

这其中非常重要的一点，就是对数据的利用。

大语言模型，是利用互联网上几乎所有的语料数据来训练，其中虽然包含质量不一、描述不准确甚至上下文逻辑混乱的数据，但通过强化学习，大语言模型既能够承受这些「脏」数据，同时也显著增强了逻辑性和答案适应性，这是近两年大家觉得大语言模型越来越好用的原因。

但是，在智能驾驶领域，还没有任何一个智驾模型用到了同样体量的数据。因为，处理真实世界数据的问题更为复杂，数据规模和脏数据的难题还没有找到很好的办法来解决。

于是，行业里普遍采用的是「专家数据」训练的方法，或者直白一点讲，就是采用优质司机的数据来训练。使用专家数据的效果会很直观，但是如果看大语言模型的发展进程，智驾将来一定会进入利用大规模量产数据进行训练的状态。虽然现在行业还没有找到能够大规模有效利用比专家数据大10倍甚至100倍量产数据的方法，但这一定是行业共同寻找突破的方向。

因为对优质司机的「模仿学习」，学到的是「手把手」的能力，是解决5秒内、10秒内操作的问题。而通过量产数据的「强化学习」，学到的是「长时序」的能力，是解决超过10秒，甚至超过1分钟、10分钟的问题。

蔚来现在的方向，就是在现有模型上叠加强化学习，把长时序的能力真正做出来。大家在新版本上感受到偏航问题的解决以及过路口、加塞能力的提升，都是强化学习所带来的收益。

这里也和大家汇报一个好消息[打call]：

自1月28日蔚来世界模型全新版本推送至今，两周时间里城区领航辅助的使用里程、使用时长都实现了环比翻倍增长，辅助驾驶的整体使用时长占比环比提升了40%，智驾时长占比超过50%的用户数量增长了2倍多。

这些数据的背后，是各位用户朋友们对蔚来智驾的大力支持。希望大家在使用过程中多多反馈问题，我们一定会持续提升大家使用辅助驾驶的体验[收到][收到]

#蔚来##蔚来智能驾驶#

发布于上海