世界模型+闭环强化学习怎么理解?少卿还是举了一个路口选道到最右侧的场景来说明
通过奖惩的方式,让系统自己学会选道,模型在仿真器中像玩游戏一样不断去做尝试,怎么选道,什么时候发起选道,由模型自己去摸索,它只看结果
这个选道场景当中有几个指标,安全、安心、舒适、合规,效率
模型过的好,就给它奖励,过的不好则进行处罚,所以大家能感受到新版上面,选道正确的优先级特别高,几乎没有选道错误的情况发生
图2是强化学习的训练方式,少卿上次跟我们讲的时候说是有3种,1种是车端打分器,第2种是开环训练,第3种是现在蔚来上的闭环强化学习,车端打分器的逻辑就是多条轨迹筛选出最好的,大家应该也有印象,别的品牌也上过,蔚来在上个版本也有车端打分器,所以模型有时候总有跳变,它的限制主要是模仿学习的质量
开环强化学习就像是PPT,车不动,环境动,如果老司机操作就会给高分,急刹或重刹就给高分,但是模型不知道我如果不按照PPT开会发生什么
闭环强化学习,必须要有一个非常还愿物理世界的世界模型,在仿真器中打游戏,模型不断输出轨迹,然后环境跟车都跟着它动,在互动当中尝试
蔚来Banyan 3.3.0 用的是闭环强化学习,仿真的效果比以前要好不少,只要有见过的场景,都能造出来进行训练,这次的能力提升,很大程度取决于强化学习,过程当中也有跟AI的斗智斗勇,因为AI还是会耍小聪明去拿高分,也看到一些强化学习带来的负体验,甚至有点强规则感的选道逻辑,可能只有1%的情况会遇到,下面几个版本还得慢慢去调
#新能源汽车#
发布于 广东
