递归语言模型提出新方法

[LG]《Recursive Language Models》A L. Zhang, T Kraska, O Khattab [MIT CSAIL] (2025)

大模型正面临一堵隐形的墙：Context Rot（上下文腐烂）。即使是 GPT-5 这样顶尖的 frontier model，随着输入长度的增加，其理解与推理能力也会出现断崖式下跌。本文提出了 Recursive Language Models (RLM)，试图通过推理侧缩放（Inference-time Scaling）彻底打破这一僵局。

以下是关于 RLM 的深度解析与思考：

1. 范式转移：从被动接收到主动交互
传统长文本处理是把千万级 Token 强行塞进 Transformer 漏斗，结果往往是模型顾此失彼。RLM 的核心洞察在于：长文本不应只是输入，而应被视为外部环境。RLM 将 Prompt 作为一个变量加载到 Python REPL 环境中，允许模型通过编写代码来观察、拆解并递归地调用自己。这意味着模型不再是被动阅读者，而是拥有了手术刀的分析师。

2. 递归的力量：化整为零的智慧
面对信息密度极高的任务，RLM 表现出了惊人的自适应能力。它会自动制定策略：先通过正则匹配筛选关键片段，再将复杂问题拆解为子任务，分发给子模型处理，最后在代码环境中将结果精准缝合。这种递归机制让模型能够处理超出其物理窗口两个数量级的文本，在 1000 万词级别的任务中依然保持极高的准确度。

3. 破解长文本的复杂度悖论
研究发现，模型的有效上下文窗口并非固定，而是取决于任务的复杂度。简单的找针（NIAH）任务可以很长，但逻辑严密的推理任务在很短时就会崩溃。RLM 的优势在于，它的性能衰减曲线远比原生模型平缓。在处理需要全局关联的 OOLONG-Pairs 任务时，原生模型几乎完全失效，而 RLM 凭借逻辑拆解实现了质的飞跃。

4. 成本与效率的优雅平衡
直觉上，递归调用会增加成本。但实验数据给出了反直觉的结论：由于 RLM 可以选择性地阅读上下文，其 API 平均成本往往比全量读入长文本更低。虽然推理时间由于串行调用有所增加，但这本质上是用时间换取了极高的推理深度。推理侧缩放正在成为继模型参数、训练数据之后的第三个增长极。

5. 涌现的上下文管理行为
在实验中，RLM 展现了一些令人惊喜的自发行为。它会利用模型先验知识进行关键词过滤，通过子模型进行答案验证，甚至在长输出任务中，利用 REPL 变量作为无限的缓冲区。这种从符号交互中涌现出的规划能力，证明了将神经计算与符号逻辑结合是通往通用智能的必经之路。

智能的本质不在于容器的大小，而在于拆解问题的深度。
当模型学会像程序员一样管理自己的注意力时，上下文的边界便不复存在。
推理侧缩放不是简单的重复，而是逻辑在维度上的自我延伸。

RLM 开启了一个新时代：我们不再追求把模型做得更大去容纳世界，而是赋予模型工具，让它学会在浩瀚的信息海洋中，精准地钓起那根针。

论文链接：arxiv.org/abs/2512.24601v1

发布于北京