轰鸣的小跑SVM
26-06-26 08:00 微博认证:汽车达人 微博新知博主 汽车博主

#技术巡猎# #蔚来# 轨迹规划方法、智能设备及可读存储介质。蔚来又做了一个泊车轨迹规划啦?其实它把端到端泊车里一个很容易被忽略的问题,掏出来优化了:车停进去的姿态到底好不好。

端到端泊车确实是拿真实用户轨迹做监督学习,但真实的用户不一定都是高手。
很多普通司机泊车时会大角度切入,然后在车位里左右修正,车可以进去,可是过程是拧巴的。
模型如果照着这些数据学,就容易学到“能停但不好看”的平均水平。

这份专利的核心是在监督学习之后,再用强化学习给模型补一层“审美标准”。
这里的“审美”是两个工程指标:一个是泊入起点时车辆与车位方向之间的夹角,另一个是车辆进入车位之后的曲率和左右摆动幅度。夹角参数用于描述车辆在泊车轨迹起点时与目标车位之间的夹角,曲率参数用于表征车辆在目标车位内的摆动幅度。

也就是说,车刚准备进车位时,车身方向不要太斜;车进到车位以后,不要像蛇一样左右扭。

自动泊车的体验问题,比较大的其实是“看起来慌不慌”。
车辆一会儿大幅打方向,一会儿反打,一会儿又微调,乘客坐在车里会觉得系统没底气。哪怕最后停好了,用户的心理评价也会下降。蔚来这个专利实际上就是在把用户感知里的“稳”,转译成模型可训练的奖励函数。

技术路径大概是这样:模型输入车辆历史轨迹和感知信息,感知信息里包括目标车位位置;深度学习神经网络模型输出未来泊车轨迹;这个模型先用真实泊车轨迹做有监督训练,再通过强化学习优化参数。专利里还提到,模型可以采用 Transformer,感知结果、目标车位信息和历史轨迹会被序列化、嵌入,再拼接后进入 Transformer Decoder。

它把奖励拆成两类:第一类是泊入姿态奖励,也就是夹角和曲率;第二类是泊车过程奖励,包括安全性和舒适性,比如碰撞、压线、超速、换挡等。专利里举例,碰撞可以减分,压线可以减分,超速也可以减分。也就是说,它不是为了姿态好看就牺牲安全,而是在“安全能停”的基础上,再逼着模型尽量少做无效动作。

其中,曲率不是从车辆一开始泊车就计算,而是车辆进入目标车位后才算。因为车位外环境复杂,有时候大角度调整是必要的,不能一刀切惩罚。专利把车位区域从矩形扩展成梯形,让系统能更早开始评估泊入姿态。它也没有直接用原始夹角和曲率硬压模型,而是做了值域变换。如果直接用夹角和曲率获取奖励,模型可能会苛求预设阈值,输出僵硬、不符合人驾习惯的轨迹。平顺”的感知非常敏感。

监督学习解决的是“先会做”。强化学习解决的是“做得更好”。但这里的“更好”必须被定义出来。蔚来这个专利把“老司机泊车”拆成夹角更小、车位内摆动更少、碰撞压线风险更低,这就等于给模型建立了一套可训练的评价体系。

发布于 广东