[LG]《Recursive Language Models》A L. Zhang, T Kraska, O Khattab [MIT CSAIL] (2025)
大模型正面临一堵隐形的墙:Context Rot(上下文腐烂)。即使是 GPT-5 这样顶尖的 frontier model,随着输入长度的增加,其理解与推理能力也会出现断崖式下跌。本文提出了 Recursive Language Models (RLM),试图通过推理侧缩放(Inference-time Scaling)彻底打破这一僵局。
以下是关于 RLM 的深度解析与思考:
1. 范式转移:从被动接收到主动交互
传统长文本处理是把千万级 Token 强行塞进 Transformer 漏斗,结果往往是模型顾此失彼。RLM 的核心洞察在于:长文本不应只是输入,而应被视为外部环境。RLM 将 Prompt 作为一个变量加载到 Python REPL 环境中,允许模型通过编写代码来观察、拆解并递归地调用自己。这意味着模型不再是被动阅读者,而是拥有了手术刀的分析师。
2. 递归的力量:化整为零的智慧
面对信息密度极高的任务,RLM 表现出了惊人的自适应能力。它会自动制定策略:先通过正则匹配筛选关键片段,再将复杂问题拆解为子任务,分发给子模型处理,最后在代码环境中将结果精准缝合。这种递归机制让模型能够处理超出其物理窗口两个数量级的文本,在 1000 万词级别的任务中依然保持极高的准确度。
3. 破解长文本的复杂度悖论
研究发现,模型的有效上下文窗口并非固定,而是取决于任务的复杂度。简单的找针(NIAH)任务可以很长,但逻辑严密的推理任务在很短时就会崩溃。RLM 的优势在于,它的性能衰减曲线远比原生模型平缓。在处理需要全局关联的 OOLONG-Pairs 任务时,原生模型几乎完全失效,而 RLM 凭借逻辑拆解实现了质的飞跃。
4. 成本与效率的优雅平衡
直觉上,递归调用会增加成本。但实验数据给出了反直觉的结论:由于 RLM 可以选择性地阅读上下文,其 API 平均成本往往比全量读入长文本更低。虽然推理时间由于串行调用有所增加,但这本质上是用时间换取了极高的推理深度。推理侧缩放正在成为继模型参数、训练数据之后的第三个增长极。
5. 涌现的上下文管理行为
在实验中,RLM 展现了一些令人惊喜的自发行为。它会利用模型先验知识进行关键词过滤,通过子模型进行答案验证,甚至在长输出任务中,利用 REPL 变量作为无限的缓冲区。这种从符号交互中涌现出的规划能力,证明了将神经计算与符号逻辑结合是通往通用智能的必经之路。
智能的本质不在于容器的大小,而在于拆解问题的深度。
当模型学会像程序员一样管理自己的注意力时,上下文的边界便不复存在。
推理侧缩放不是简单的重复,而是逻辑在维度上的自我延伸。
RLM 开启了一个新时代:我们不再追求把模型做得更大去容纳世界,而是赋予模型工具,让它学会在浩瀚的信息海洋中,精准地钓起那根针。
论文链接:arxiv.org/abs/2512.24601v1
