[RO]《RAPTOR: A Foundation Policy for Quadrotor Control》J Eschmann, D Albani, G Loianno [UC Berkeley & Technology Innovation Institut] (2025) RAPTOR：一套适用于多旋翼飞行器的基础控制策略，极大提升了无人机对不同机型的零样本适应能力。• 训练覆盖1000种虚拟四旋翼，涵盖质量（32g~

[RO]《RAPTOR: A Foundation Policy for Quadrotor Control》J Eschmann, D Albani, G Loianno [UC Berkeley & Technology Innovation Institut] (2025)

RAPTOR：一套适用于多旋翼飞行器的基础控制策略，极大提升了无人机对不同机型的零样本适应能力。

• 训练覆盖1000种虚拟四旋翼，涵盖质量（32g~2.4kg）、电机类型（有刷/无刷）、机架刚性、桨叶数（2/3/4叶）、飞控固件（PX4、Betaflight等），实现广泛的动力学随机化。
• 采用Meta-Imitation Learning，先用强化学习训练1000个专家策略（教师），再蒸馏为单一轻量级（2084参数）循环神经网络学生策略，实现基于上下文的隐式系统识别与在线快速适应。
• 学生策略能在毫秒级别根据历史观测和动作序列推断当前无人机动力学参数，完成从悬停、轨迹跟踪到抗扰动的全方位控制，支持多种飞控平台和实际环境（室内、室外、强风、负载变化、桨叶更换等）。
• 实验覆盖10款真实无人机和2个仿真环境，验证了策略在分布内外均具备出色的泛化能力和鲁棒性，轨迹跟踪误差与专门训练的单机策略相近，且能适应超出训练范围的极端动力学。
• 训练过程高效，教师策略训练可并行缩短至数十小时，蒸馏训练仅需数小时；推理计算量低至微控制器可实时运行（占用计算资源<10%）。
• 开源实现及交互式模拟平台全面支持社区复现和二次开发，降低多旋翼控制研究门槛。

心得：
1. 广域动力学随机化结合隐式在线推断打破了传统控制对精确模型依赖的瓶颈，实现了真正意义上的零样本适应。
2. 轻量级循环结构与多任务蒸馏策略相辅相成，既保证了推理效率，又赋予了策略强大的泛化和快速学习能力。
3. 从端到端控制视角出发，融合强化学习与模仿学习，构建基础模型的思路为机器人控制领域提供了新的范式。

详情见🔗arxiv.org/abs/2509.11481
项目主页🔗raptor.rl.tools
演示视频🔗youtu.be/hVzdWRFTX3k

#多旋翼无人机##强化学习##基础模型##元学习##机器人控制##Sim2Real#

发布于北京