零重力瓦力 25-12-23 13:38
微博认证:AI博主

一支清华大学 NLP 实验室为核心的研究团队发表了一篇论文,提出了一个很有意思的观点:用强化学习训练小语言模型,其实 “简单点更好”。

论文提到,现在不少机构为了让小语言模型(比如1.5B参数)在数学推理上有更好表现,想出了各种复杂的训练方法,比如多阶段训练、动态调整参数、课程学习、长度惩罚等等。但他们却选择了最简单的做法:只用固定超参数、单阶段训练和最基础的奖励机制。结果,他们在9个数学基准测试上都拿到了目前最好的成绩,算力消耗还只有复杂方法的一半。

更有意思的是,他们还发现很多大家常用的 “标准技巧” 其实可能适得其反。比如加上显式的长度惩罚后,模型的探索能力反而被限制,最终表现还下降了大约 10%。

所以他们认为,很多复杂的训练技巧,其实是在解决其他复杂技巧带来的问题,而不是真正针对强化学习本身。研究团队建议,大家不妨先把简单、稳定的基线跑起来,只有在遇到瓶颈时再考虑加复杂度。用作者的话来说:“完美不是无可增添,而是无可删减。”

论文地址:alphaxiv.org/abs/2512.16649

#AI技术[超话]##科技先锋官##AI创造营#

发布于 上海