[AI]《SPIRAL: Learning to Search and Aggregate》J I Hamid, I H Orney, M Y. Li, O Shaikh… [Stanford University] (2026)
在复杂逻辑推理领域,大模型推理能力的提升高度依赖推理计算量的扩展。过去的方法受困于推理计算原语(串行思考、并行搜索、结果聚合)在训练与部署间的严重脱节,本质原因是模型在后训练阶段仅针对单条路径的串行推理进行优化,导致其在测试时无法自主协调并行探索的广度与聚合验证的深度。
本文的核心洞见是:把推理过程重新看作一个由串行、并行、聚合三种原语构成的端到端可优化流水线。由此,Spiral 框架这一关键操作使问题得以解开:它引入集合强化学习(Set RL)来优化并行搜索路径,确保生成的多个候选轨迹对最终聚合具有集体效用,并配合标准强化学习优化聚合器,使模型学会从不同线索中提炼真知。
这项工作真正留下的遗产是证明了推理计算原语本身是可学习的,而非必须依赖人工设计的固定启发式架构。它为后来者打开的新门是通过端到端协同进化实现远超传统方法的计算缩放效率(效率提升达 11 倍),但尚未跨过的门槛是在更具开放性的发现任务中,如何平衡搜索多样性与计算成本的指数级增长。
arxiv.org/abs/2606.23595 #机器学习##人工智能##论文##AI创造营#
发布于 北京
