爱可可-爱生活
26-06-20 05:23 微博认证:AI博主 2025微博新锐新知博主

[LG]《VIMPO: Value-Implicit Policy Optimization for LLMs》Z Kang, A Feng, S Levine, D Song… [UC Berkeley & Yale University] (2026)

在 LLM 强化学习领域,实现细粒度 Token 级信用分配是一个悬而未决的难题。过去的方法受困于“简单性与精确性”的二选一困境:GRPO 等方法虽无需训练评论家(Critic)但信号粗糙,而 Actor-Critic 架构虽信号密集却面临训练不稳定的本质挑战。

本文的核心洞见是:把自回归生成的策略对数比例重新看作隐式价值函数的增量。由此,利用 KL 正则化下的贝尔曼一致性,将终端奖励锚定为零,使模型仅通过策略自身的 log-ratio 变化即可推导出 Token 级的优势信号。

这项工作真正留下的遗产是证明了“无评论家”与“高分辨率信用分配”可以兼得。它为后来者打开的新门是利用策略内部几何特征替代外部价值网络,但尚未跨过的门槛是固定参考策略对长期演化性能的潜在约束。

arxiv.org/abs/2606.20008 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京