清华大学研究团队提出简单强化学习方法

一支清华大学 NLP 实验室为核心的研究团队发表了一篇论文，提出了一个很有意思的观点：用强化学习训练小语言模型，其实 “简单点更好”。

论文提到，现在不少机构为了让小语言模型（比如1.5B参数）在数学推理上有更好表现，想出了各种复杂的训练方法，比如多阶段训练、动态调整参数、课程学习、长度惩罚等等。但他们却选择了最简单的做法：只用固定超参数、单阶段训练和最基础的奖励机制。结果，他们在9个数学基准测试上都拿到了目前最好的成绩，算力消耗还只有复杂方法的一半。

更有意思的是，他们还发现很多大家常用的 “标准技巧” 其实可能适得其反。比如加上显式的长度惩罚后，模型的探索能力反而被限制，最终表现还下降了大约 10%。

所以他们认为，很多复杂的训练技巧，其实是在解决其他复杂技巧带来的问题，而不是真正针对强化学习本身。研究团队建议，大家不妨先把简单、稳定的基线跑起来，只有在遇到瓶颈时再考虑加复杂度。用作者的话来说：“完美不是无可增添，而是无可删减。”

论文地址：alphaxiv.org/abs/2512.16649

#AI技术[超话]##科技先锋官##AI创造营#

发布于上海