爱可可-爱生活
26-06-18 05:23 微博认证:AI博主 2025微博新锐新知博主

[CL]《Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients》B Lee, X Lu, S Diao, M Kang… [NVIDIA] (2026)

在小规模模型强化学习中,知识蒸馏和RL各陷入死局。蒸馏强制学生模仿大教师的logit分布,容量受限导致记忆化与模式坍缩,在训练外基准上泛化能力崩溃。RL虽避免logit模仿,但在学生每次rollout都失败的硬题上(平均准确率为0),组内优势恰好为零,这些最需要帮助的问题被梯度完全忽视。

ZPPO的核心洞见:将教师知识转移到提示内部而非梯度内部。对硬题,构造两类改写提示:BCQ将一个教师正确回答与一个学生错误回答打乱并匿名呈现,让学生从两个无标签候选中判别;NCQ聚合学生所有错误回答,明确列出它们全部错误,让学生识别自己的失败模式。硬题进入回放缓冲并重复采样直到毕业(准确率达50%)或被驱逐,在学生的"近发展区"内放大BCQ和NCQ信号。每个回答token由学生自己生成,梯度保持on-policy。

ZPPO在0.8B–9B学生规模的31个基准上超越蒸馏与GRPO,尤其在训练数据外的LLM/视频基准上改进(而蒸馏反而降低),因为它既避免logit适配的脆弱性,又恢复了RL在全负样本问题上的梯度。局限在于BCQ需要教师成功的题目——若师生都失败则BCQ无候选,学生必须依靠NCQ单独学习,zone的天花板由教师能力决定。

arxiv.org/abs/2606.18216 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京