F Diaz提出轨迹偏好评估

[LG]《Offline Preference-Based Trajectory Evaluation》F Diaz [CMU] (2026)

在计算机科学中，评估智能体系统常因采用二元成功率指标而陷入困境：80%的实例对比产生平局，信息严重丧失，导致基准饱和。过去的方法将轨迹坍缩为单一终值，既遗漏了部分进展的细节，也忽视了性能随时间如何积累的过程。

本文的核心洞见是：把轨迹评估从单标量对比重新看作偏好对比——直接比较两条轨迹如何在各个回报水平上争夺时间优势。由此，时间偏好这一关键操作（更快到达相同进展就更优）无需假设时间与效用的精确函数关系，使问题得以解开。

这项工作真正留下的遗产是：揭示基准饱和可能源于度量设计而非数据质量。它为后来者打开的新门是：脱离超参数驱动的折扣因子，用无参数的偏好序关系重建评估，在五类基准上将平局率从75%降至35%。但尚未跨过的门槛是：依赖于中间奖励的质量——当子目标标注噪声、密度不当或与人类效用不对齐时，该方法会放大标注伪影而非真实差异。

arxiv.org/abs/2606.17541 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京