Qwen提出SAPO新算法

GRPO、GSPO 后，Qwen又提出了一种SAPO的新算法，已被用于训练 Qwen3-VL 系列模型
论文：arxiv.org/pdf/2511.20347

算法主要期望解决大语言模型 RL 训练中的不稳定性问题，特别是针对 MoE模型。通过引入平滑的门控机制和非对称温度控制，提供了一种比传统硬截断方法（GRPO/GSPO）更可靠、更具扩展性的 LLM 强化学习优化策略。
#科技先锋官#

发布于山东