爱可可-爱生活
26-06-18 05:31 微博认证:AI博主 2025微博新锐新知博主

[LG]《Reversal Q-Learning》A Oberai, S Park, S Levine [UC Berkeley] (2026)

在离线强化学习中,如何用迭代生成模型(如流匹配)训练策略而不陷入反向传播时间步长的困境,是一个悬而未决的难题。过去的方法受困于要么回传梯度穿过整个迭代过程导致训练不稳定,要么舍弃梯度信息改用回归方法效率低下,本质原因是流策略的逐步细化特性与标准RL的不兼容。

本文的核心洞见是:把流ODE的离散化步骤重新看作扩展MDP中的独立动作。由此,通过"反向流"生成虚拟轨迹这一关键操作使问题得以解开——利用确定性流的可逆性,从数据集的原始状态-动作对反演出完整的流轨迹,然后用无偏零方差的多步回报跨越这些虚拟轨迹,将有效时间步长从T×F缩减到T,直接规避了离策略RL中的"时间步长诅咒"。

这项工作真正留下的遗产是用可逆变换替代梯度反向传播,为流策略的离策略学习打开了新的结构化思路。它为后来者打开的新门是在扩展MDP框架下用确定性模型生成虚拟轨迹的范式,但尚未跨过的门槛是对超参数(BC系数α、期望分位数κ)的敏感性依然显著,这限制了该方法的即插即用性。

arxiv.org/abs/2606.17551 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京