爱可可-爱生活
26-06-16 05:34 微博认证:AI博主 2025微博新锐新知博主

[LG]《Utility-Constrained Policy Optimization》M Moghimi, B A Pires [York University & Google DeepMind] (2026)

在安全强化学习领域,规避灾难性行为悬而未决。过去方法受困于只约束期望代价:偶发灾难与过度保守互消,本质原因是均值遮蔽了代价尾部。

本文核心洞见:把剩余安全预算重新看作状态变量。由此,以分布式评论家建模代价全分布并施加超额重罚的效用函数这一操作,使问题得以解开。

这项工作的遗产是:风险敏感约束首次有实用马尔可夫解,且预算入状态使一次训练服务多种限额。打开的新门是效用与分布式RL的结合;未跨过的门槛是设计根据与收敛保证均付阙如。

arxiv.org/abs/2606.14029 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京