VIMPO无评论家优化

[LG]《VIMPO: Value-Implicit Policy Optimization for LLMs》Z Kang, A Feng, S Levine, D Song… [UC Berkeley & Yale University] (2026)

在 LLM 强化学习领域，实现细粒度 Token 级信用分配是一个悬而未决的难题。过去的方法受困于“简单性与精确性”的二选一困境：GRPO 等方法虽无需训练评论家（Critic）但信号粗糙，而 Actor-Critic 架构虽信号密集却面临训练不稳定的本质挑战。

本文的核心洞见是：把自回归生成的策略对数比例重新看作隐式价值函数的增量。由此，利用 KL 正则化下的贝尔曼一致性，将终端奖励锚定为零，使模型仅通过策略自身的 log-ratio 变化即可推导出 Token 级的优势信号。

这项工作真正留下的遗产是证明了“无评论家”与“高分辨率信用分配”可以兼得。它为后来者打开的新门是利用策略内部几何特征替代外部价值网络，但尚未跨过的门槛是固定参考策略对长期演化性能的潜在约束。

arxiv.org/abs/2606.20008 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京