理想汽车与英伟达推出MTDrive

🌟理想汽车与英伟达联手推出MTDrive：多轮交互强化学习引领自动驾驶新突破🌟

【MTDrive: Multi-turn Interactive Reinforcement Learning for Autonomous Driving】

来自于：【智驾通鉴】@首席线索官

核心点🌟：
本文提出了MTDrive框架，通过多轮交互强化学习方法改进了自动驾驶中的轨迹规划，显著提升了复杂场景下的性能，并实现了高效的多模态训练系统。

背景问题❓
当前自动驾驶技术在常见场景中表现良好，但在罕见但关键的“长尾”场景中仍面临挑战。现有的视觉语言模型虽然具备广泛的知识，但在细粒度的空间推理方面存在不足，例如车辆定位不准确、障碍物识别不全等问题。此外，传统的单轮强化学习方法难以处理需要迭代优化的复杂任务。因此，如何提高自动驾驶系统在这些复杂场景中的鲁棒性和泛化能力成为亟待解决的问题。

研究方法：
1️⃣：多轮交互数据生成
MTDrive引入了一个多轮交互的数据生成管道，以激发模型的反思能力。该框架利用PDM代理提供基于环境反馈的交互式反馈，用于轨迹修正。PDM代理基于NAVSIM仿真器提供的碰撞相关指标来评估轨迹质量。

2️⃣：数据集构建数据集
分为单轮数据、多轮数据和PDM理解数据三类。单轮数据用于训练模型的基本轨迹生成能力；多轮数据通过迭代引导过程生成，逐步提升模型的多轮轨迹推理能力；PDM理解数据帮助模型解读PDM反馈。

3️⃣：新型强化学习算法mtGRPO
为了克服多轮环境中稀疏奖励的问题，本文提出了mtGRPO算法。该算法为每个回合计算相对优势，从而缓解了奖励稀疏性带来的训练不稳定问题。具体而言，mtGRPO为每个回合分配奖励，并采用跨回合的优势估计方法来区分各回合的贡献。

4️⃣：多模态多轮强化学习训练系统
本文还构建了一个专门针对视觉语言自动驾驶的多模态多轮强化学习训练系统，通过IPSS和IPTC两种优化策略，有效减少了高分辨率图像和多轮序列导致的数据传输开销，提高了训练吞吐量。

结果👩‍🏫：
主要实验结果，MTDrive在NAVSIM基准上的PDMS得分为96.2，超过了人类驾驶基准的94.8。在实际部署场景下，MTDrive也表现出色，PDMS得分为91.1。
消融实验表明，多轮数据和mtGRPO算法对提升性能至关重要。消融实验结果消融实验展示了不同组件对模型性能的影响。增加多轮数据和mtGRPO算法显著提升了模型的PDMS得分。

结论🌟：
MTDrive框架通过多轮交互强化学习显著提升了自动驾驶系统的轨迹规划能力，特别是在复杂和罕见场景中。该框架不仅在性能上超越了现有方法，还在训练效率上取得了重大突破。未来工作可以进一步探索将感知数据集成到视觉语言模型中，以及扩展到其他模拟环境中的应用。

#懒博小课堂##微博新知##理想汽车##自动驾驶#

发布于浙江