ZPPO论文介绍_新浪新闻

[CL]《Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients》B Lee, X Lu, S Diao, M Kang… [NVIDIA] (2026)

在小规模模型强化学习中，知识蒸馏和RL各陷入死局。蒸馏强制学生模仿大教师的logit分布，容量受限导致记忆化与模式坍缩，在训练外基准上泛化能力崩溃。RL虽避免logit模仿，但在学生每次rollout都失败的硬题上（平均准确率为0），组内优势恰好为零，这些最需要帮助的问题被梯度完全忽视。

ZPPO的核心洞见：将教师知识转移到提示内部而非梯度内部。对硬题，构造两类改写提示：BCQ将一个教师正确回答与一个学生错误回答打乱并匿名呈现，让学生从两个无标签候选中判别；NCQ聚合学生所有错误回答，明确列出它们全部错误，让学生识别自己的失败模式。硬题进入回放缓冲并重复采样直到毕业（准确率达50%）或被驱逐，在学生的"近发展区"内放大BCQ和NCQ信号。每个回答token由学生自己生成，梯度保持on-policy。

ZPPO在0.8B–9B学生规模的31个基准上超越蒸馏与GRPO，尤其在训练数据外的LLM/视频基准上改进（而蒸馏反而降低），因为它既避免logit适配的脆弱性，又恢复了RL在全负样本问题上的梯度。局限在于BCQ需要教师成功的题目——若师生都失败则BCQ无候选，学生必须依靠NCQ单独学习，zone的天花板由教师能力决定。

arxiv.org/abs/2606.18216 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京