新采样算法提升模型推理能力

[LG]《Reasoning with Sampling: Your Base Model is Smarter Than You Think》A Karan, Y Du [Harvard University] (2025)

近年来，强化学习（RL）后训练大语言模型（LLM）在推理能力上表现出色，尤其在数学、编程等领域。但普遍疑问是：这些能力是RL训练真正“新学”来的吗？还是基础模型本身就有，只是采样时未充分挖掘？

本文提出了一种创新采样算法，基于对基础模型概率分布加权（power distribution）思想，利用马尔科夫链蒙特卡洛（MCMC）方法，在推理时无需额外训练就能挖掘基础模型潜力。其核心思想是通过对序列概率取幂，提升高概率推理路径权重，从而避免传统低温采样中对未来路径平均权重的“贪婪”偏差，更有效捕获关键“枢纽”token，提升推理准确率。

实验覆盖数学竞赛题（MATH500）、代码生成（HumanEval）、科学问答（GPQA）及通用任务（AlpacaEval2.0），结果显示：
- 该采样算法在单次推理准确率上，达到甚至超越了当前最先进的RL后训练方法（如GRPO）。
- 多样性方面明显优于RL方法，避免生成质量和多样性的“模式坍缩”。
- 无需训练、无验证器、无额外数据，显著降低使用门槛和资源消耗。
- 对超出训练域的任务表现更佳，展现出强泛化能力。

论文还深入理论分析了power distribution采样为何更适合推理任务，阐释了其优于低温采样的本质区别。通过逐步采样和MCMC迭代，算法在推理时实现了高效的“分布锐化”，使模型更聚焦于高质量推理路径。

结论令人振奋：我们熟知的基础模型本身就蕴含强大推理能力，关键在于如何在推理阶段用更智能的采样策略加以发掘。此工作为未来提升LLM推理性能提供了新视角——“训练之外的推理强化”。

详细论文链接：arxiv.org/abs/2510.14901

#大语言模型 #强化学习 #推理能力 #MCMC采样 #AI研究 #LLM

发布于北京