爱可可-爱生活
26-06-18 05:37 微博认证:AI博主 2025微博新锐新知博主

[LG]《Offline Preference-Based Trajectory Evaluation》F Diaz [CMU] (2026)

在计算机科学中,评估智能体系统常因采用二元成功率指标而陷入困境:80%的实例对比产生平局,信息严重丧失,导致基准饱和。过去的方法将轨迹坍缩为单一终值,既遗漏了部分进展的细节,也忽视了性能随时间如何积累的过程。

本文的核心洞见是:把轨迹评估从单标量对比重新看作偏好对比——直接比较两条轨迹如何在各个回报水平上争夺时间优势。由此,时间偏好这一关键操作(更快到达相同进展就更优)无需假设时间与效用的精确函数关系,使问题得以解开。

这项工作真正留下的遗产是:揭示基准饱和可能源于度量设计而非数据质量。它为后来者打开的新门是:脱离超参数驱动的折扣因子,用无参数的偏好序关系重建评估,在五类基准上将平局率从75%降至35%。但尚未跨过的门槛是:依赖于中间奖励的质量——当子目标标注噪声、密度不当或与人类效用不对齐时,该方法会放大标注伪影而非真实差异。

arxiv.org/abs/2606.17541 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京