蔚来优化泊车姿态

#技术巡猎# #蔚来# 轨迹规划方法、智能设备及可读存储介质。蔚来又做了一个泊车轨迹规划啦？其实它把端到端泊车里一个很容易被忽略的问题，掏出来优化了：车停进去的姿态到底好不好。

端到端泊车确实是拿真实用户轨迹做监督学习，但真实的用户不一定都是高手。
很多普通司机泊车时会大角度切入，然后在车位里左右修正，车可以进去，可是过程是拧巴的。
模型如果照着这些数据学，就容易学到“能停但不好看”的平均水平。

这份专利的核心是在监督学习之后，再用强化学习给模型补一层“审美标准”。
这里的“审美”是两个工程指标：一个是泊入起点时车辆与车位方向之间的夹角，另一个是车辆进入车位之后的曲率和左右摆动幅度。夹角参数用于描述车辆在泊车轨迹起点时与目标车位之间的夹角，曲率参数用于表征车辆在目标车位内的摆动幅度。

也就是说，车刚准备进车位时，车身方向不要太斜；车进到车位以后，不要像蛇一样左右扭。

自动泊车的体验问题，比较大的其实是“看起来慌不慌”。
车辆一会儿大幅打方向，一会儿反打，一会儿又微调，乘客坐在车里会觉得系统没底气。哪怕最后停好了，用户的心理评价也会下降。蔚来这个专利实际上就是在把用户感知里的“稳”，转译成模型可训练的奖励函数。

技术路径大概是这样：模型输入车辆历史轨迹和感知信息，感知信息里包括目标车位位置；深度学习神经网络模型输出未来泊车轨迹；这个模型先用真实泊车轨迹做有监督训练，再通过强化学习优化参数。专利里还提到，模型可以采用 Transformer，感知结果、目标车位信息和历史轨迹会被序列化、嵌入，再拼接后进入 Transformer Decoder。

它把奖励拆成两类：第一类是泊入姿态奖励，也就是夹角和曲率；第二类是泊车过程奖励，包括安全性和舒适性，比如碰撞、压线、超速、换挡等。专利里举例，碰撞可以减分，压线可以减分，超速也可以减分。也就是说，它不是为了姿态好看就牺牲安全，而是在“安全能停”的基础上，再逼着模型尽量少做无效动作。

其中，曲率不是从车辆一开始泊车就计算，而是车辆进入目标车位后才算。因为车位外环境复杂，有时候大角度调整是必要的，不能一刀切惩罚。专利把车位区域从矩形扩展成梯形，让系统能更早开始评估泊入姿态。它也没有直接用原始夹角和曲率硬压模型，而是做了值域变换。如果直接用夹角和曲率获取奖励，模型可能会苛求预设阈值，输出僵硬、不符合人驾习惯的轨迹。平顺”的感知非常敏感。

监督学习解决的是“先会做”。强化学习解决的是“做得更好”。但这里的“更好”必须被定义出来。蔚来这个专利把“老司机泊车”拆成夹角更小、车位内摆动更少、碰撞压线风险更低，这就等于给模型建立了一套可训练的评价体系。

发布于广东