爱可可-爱生活 25-10-20 05:21
微博认证:AI博主 2025微博新锐新知博主

[LG]《Reasoning with Sampling: Your Base Model is Smarter Than You Think》A Karan, Y Du [Harvard University] (2025)

近年来,强化学习(RL)后训练大语言模型(LLM)在推理能力上表现出色,尤其在数学、编程等领域。但普遍疑问是:这些能力是RL训练真正“新学”来的吗?还是基础模型本身就有,只是采样时未充分挖掘?

本文提出了一种创新采样算法,基于对基础模型概率分布加权(power distribution)思想,利用马尔科夫链蒙特卡洛(MCMC)方法,在推理时无需额外训练就能挖掘基础模型潜力。其核心思想是通过对序列概率取幂,提升高概率推理路径权重,从而避免传统低温采样中对未来路径平均权重的“贪婪”偏差,更有效捕获关键“枢纽”token,提升推理准确率。

实验覆盖数学竞赛题(MATH500)、代码生成(HumanEval)、科学问答(GPQA)及通用任务(AlpacaEval2.0),结果显示:
- 该采样算法在单次推理准确率上,达到甚至超越了当前最先进的RL后训练方法(如GRPO)。
- 多样性方面明显优于RL方法,避免生成质量和多样性的“模式坍缩”。
- 无需训练、无验证器、无额外数据,显著降低使用门槛和资源消耗。
- 对超出训练域的任务表现更佳,展现出强泛化能力。

论文还深入理论分析了power distribution采样为何更适合推理任务,阐释了其优于低温采样的本质区别。通过逐步采样和MCMC迭代,算法在推理时实现了高效的“分布锐化”,使模型更聚焦于高质量推理路径。

结论令人振奋:我们熟知的基础模型本身就蕴含强大推理能力,关键在于如何在推理阶段用更智能的采样策略加以发掘。此工作为未来提升LLM推理性能提供了新视角——“训练之外的推理强化”。

详细论文链接:arxiv.org/abs/2510.14901

#大语言模型 #强化学习 #推理能力 #MCMC采样 #AI研究 #LLM

发布于 北京