蚁工厂 25-11-30 20:26
微博认证:科技博主

GRPO、GSPO 后,Qwen又提出了一种SAPO的新算法,已被用于训练 Qwen3-VL 系列模型
论文:arxiv.org/pdf/2511.20347

算法主要期望解决大语言模型 RL 训练中的不稳定性问题,特别是针对 MoE模型。通过引入平滑的门控机制和非对称温度控制,提供了一种比传统硬截断方法(GRPO/GSPO)更可靠、更具扩展性的 LLM 强化学习优化策略 。
#科技先锋官#

发布于 山东