蚁工厂 25-07-25 19:29
微博认证:科技博主

Qwen团队刚刚发布的除了升级版的思考模型 Qwen3-235B-A22B,还发了一篇技术论文,提出了GRPO 的升级版算法:GSPO
论文地址:http://t.cn/A6FyzBfX

GSPO是一种用于训练大型语言模型的稳定、高效且性能优异的强化学习算法。GSPO 通过基于序列似然定义重要性比率,并在序列级别进行裁剪、奖励和优化,显著提高了训练效率和性能,特别是在 Mixture-of-Experts(MoE)模型的强化学习训练中表现出色,为最新的 Qwen3 模型的显著改进做出了贡献。
#AI创造营##微博兴趣创作计划#

发布于 山东