蔚来Banyan 3.3.0应用闭环强化学习

世界模型+闭环强化学习怎么理解？少卿还是举了一个路口选道到最右侧的场景来说明

通过奖惩的方式，让系统自己学会选道，模型在仿真器中像玩游戏一样不断去做尝试，怎么选道，什么时候发起选道，由模型自己去摸索，它只看结果

这个选道场景当中有几个指标，安全、安心、舒适、合规，效率

模型过的好，就给它奖励，过的不好则进行处罚，所以大家能感受到新版上面，选道正确的优先级特别高，几乎没有选道错误的情况发生

图2是强化学习的训练方式，少卿上次跟我们讲的时候说是有3种，1种是车端打分器，第2种是开环训练，第3种是现在蔚来上的闭环强化学习，车端打分器的逻辑就是多条轨迹筛选出最好的，大家应该也有印象，别的品牌也上过，蔚来在上个版本也有车端打分器，所以模型有时候总有跳变，它的限制主要是模仿学习的质量

开环强化学习就像是PPT，车不动，环境动，如果老司机操作就会给高分，急刹或重刹就给高分，但是模型不知道我如果不按照PPT开会发生什么

闭环强化学习，必须要有一个非常还愿物理世界的世界模型，在仿真器中打游戏，模型不断输出轨迹，然后环境跟车都跟着它动，在互动当中尝试

蔚来Banyan 3.3.0 用的是闭环强化学习，仿真的效果比以前要好不少，只要有见过的场景，都能造出来进行训练，这次的能力提升，很大程度取决于强化学习，过程当中也有跟AI的斗智斗勇，因为AI还是会耍小聪明去拿高分，也看到一些强化学习带来的负体验，甚至有点强规则感的选道逻辑，可能只有1%的情况会遇到，下面几个版本还得慢慢去调

#新能源汽车#

发布于广东