AD我是牛梅梅 26-02-13 15:49

和大家讲一个小故事:

去年10月,晚点报道了一篇对少卿的专访,少卿讲了很多和强化学习相关的内容。但其实这篇内容的采访时间,是9月中旬,彼时我们刚刚做了一个很「艰难」的决定,就是把一个已经迭代好、临近全量推送的版本给毙掉,将全部的方案转向一个刚刚在8月底完成基础验证的版本。

这个版本,就是今天大家拿到的、实现完整强化学习的版本。

放弃一个相对成熟的方案,转向一个行业里还没有先例的方案,这绝对是一个非常大胆的选择。因为强化学习虽然已经在大语言模型的范畴里得到了应用,但将其应用于真实世界,包括智能驾驶和机器人,仍然处于非常前沿的研究与探索阶段。

这其中非常重要的一点,就是对数据的利用。

大语言模型,是利用互联网上几乎所有的语料数据来训练,其中虽然包含质量不一、描述不准确甚至上下文逻辑混乱的数据,但通过强化学习,大语言模型既能够承受这些「脏」数据,同时也显著增强了逻辑性和答案适应性,这是近两年大家觉得大语言模型越来越好用的原因。

但是,在智能驾驶领域,还没有任何一个智驾模型用到了同样体量的数据。因为,处理真实世界数据的问题更为复杂,数据规模和脏数据的难题还没有找到很好的办法来解决。

于是,行业里普遍采用的是「专家数据」训练的方法,或者直白一点讲,就是采用优质司机的数据来训练。使用专家数据的效果会很直观,但是如果看大语言模型的发展进程,智驾将来一定会进入利用大规模量产数据进行训练的状态。虽然现在行业还没有找到能够大规模有效利用比专家数据大10倍甚至100倍量产数据的方法,但这一定是行业共同寻找突破的方向。

因为对优质司机的「模仿学习」,学到的是「手把手」的能力,是解决5秒内、10秒内操作的问题。而通过量产数据的「强化学习」,学到的是「长时序」的能力,是解决超过10秒,甚至超过1分钟、10分钟的问题。

蔚来现在的方向,就是在现有模型上叠加强化学习,把长时序的能力真正做出来。大家在新版本上感受到偏航问题的解决以及过路口、加塞能力的提升,都是强化学习所带来的收益。

这里也和大家汇报一个好消息[打call]:

自1月28日蔚来世界模型全新版本推送至今,两周时间里城区领航辅助的使用里程、使用时长都实现了环比翻倍增长,辅助驾驶的整体使用时长占比环比提升了40%,智驾时长占比超过50%的用户数量增长了2倍多。

这些数据的背后,是各位用户朋友们对蔚来智驾的大力支持。希望大家在使用过程中多多反馈问题,我们一定会持续提升大家使用辅助驾驶的体验[收到][收到]

#蔚来##蔚来智能驾驶#

发布于 上海