[RO]《Freeform Preference Learning for Robotic Manipulation》M Torne, A Mahajan, A Bhat, C Finn [Stanford University] (2026)
在长程机器人操作领域,奖励函数的设计是一个悬而未决的难题。过去的方法受困于稀疏的成功标签或模糊的二元偏好,本质原因是单一的标量信号强行压缩了速度、安全、平稳度等多个互斥维度,导致监督信号在复杂任务中极度匮乏且充满歧义。
本文的核心洞见是:把人类偏好重新看作由自然语言定义的“多维坐标系”。由此,引入自由形式偏好学习(FPL),允许标注者自定义语言轴(如“放置的细致度”),并通过语言条件奖励模型与奖励条件策略的关键操作,使机器人能同时解耦并优化多个行为维度。
这项工作真正留下的遗产是证明了自然语言可以作为比二元选择更高效、高密度的学术监督接口。它为后来者打开的新门是实现了无需重训即可在测试时动态切换行为风格(如从“快速”切换到“平稳”),但尚未跨过的门槛是自动化选择最优奖励目标值以及处理更极端的非分布行为。
arxiv.org/abs/2606.32027 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
