长上下文拖垮大模型

你把一份几十页的资料丢给 AI，它能准确告诉你答案在第几行，可让它接着回答，照样答错。

这事听着别扭，但它不是 AI 偷懒，也不是你问得不好。2025年一篇被 EMNLP Findings 收录的研究，把这件事抠到了很细的地步。它是伊利诺伊大学的 Yufeng Du 和 Amazon 的几位研究者一起做的，名字直接叫《光是上下文变长，就会拖垮大模型，哪怕它检索得完美无缺》。

我把它的做法和你能直接拿走的那一招讲清楚，后面这一招放在任何大模型上都能用。

先说他们最反常识的那个发现。

过去大家解释「资料一长 AI 就变笨」，通常归到两个原因：一是关键信息夹在中间会被忽略（就是那个有名的「迷失在中间」），二是无关内容太多，把模型带偏了。这两条都对，但都不是全部。

这群人想知道：把这两个原因全堵死，AI 还会不会变笨？

于是他们做了一组挺极端的实验。把无关的内容全换成空白，等于桌面上别的杂物都清走了；把真正相关的那句证据，紧挨着问题放在最前面，位置好到不能再好；再强制模型只盯着相关信息看。说白了，他们人为造出了一个「完美」的环境：信息百分百找得到、没有任何东西来干扰、位置也最优。

他们一共在5个大模型上试了这套，任务也不是凑数的，数学题、阅读问答、写代码都覆盖到了。这三类有个共同点：找到信息只是第一步，找到之后还得「动脑子」，算一下、推一下、判断一下。这恰恰是检验「找到了但做不对」的好场子。

结果呢，只要把整段输入拉长，准确率照样往下掉，幅度从13.9%一直到85%。而且这些长度都还远没到模型号称能吃下的上限。

这个结论的分量在于：它说明 AI 答错，不是「找不到」，也不是「被带偏」，是长度本身这件事就让它处理变差了。

这就有点反我们的直觉了。我们一般以为，只要 AI 能定位到那句关键信息，剩下的就水到渠成。可它偏偏会出现「明明指给你看了，转头自己却用错」的情况。问题不在眼睛，在脑子。更准确说，在它一边要顾着那一大片输入、一边还要腾出力气来推理，两头一分神，推理那头就先松了。

我打个比方你大概就懂了。

想象一面墙，贴满了花花绿绿的便利贴，答案写在其中一张上。你让一个人把那张找出来，他能一眼指出是哪张——找，他没问题。可你接着让他对着那张便利贴口算上面的一道题，你会发现，他比只盯着这一张纸的时候更容易算错。

不是他没找到，是那一整面墙在背景里晃着，他的注意力被摊薄了，脑子留给「算」的那部分就不够使了。大模型读长资料，是同一种累。

Chroma 后来又用18个主流模型单独验了一遍这件事。GPT-4.1、GPT-4o、Claude、Gemini、还有 Qwen，一个不落，全都是输入越长表现越差。最扎心的是：很多模型在输入远没填满它号称的窗口时，就已经开始明显退化了。所以「上下文窗口很大」和「你真能把它填满还指望它好用」，完全是两回事。

讲到这，重点来了——怎么办。

研究者给的解法朴素得有点出乎我意料：在让 AI 解题之前，先让它把相关的原文，原样抄一遍。

就这么一个动作。先抄，再答。

放到刚才那个比方里，相当于你让那个人别急着算，先把便利贴上的题，工工整整抄到面前一张干净的草稿纸上，然后低头对着这一行算。那一整面墙就退到背景里去了，他面对的，又变回了一道干净利落的短题。

对模型来说是一样的：它把相关证据复述出来的那一刻，等于自己给自己重建了一段又短又干净的上下文，后面的推理就是基于这一小段做的。一道长上下文的难题，被它自己压成了一道短上下文的易题。研究里在一个标准测试上试了下，光这一招就让 GPT-4o 的成绩往上提了大约4%。

那你具体该怎么用？很简单，贴完一份长资料、或者一大段聊天记录之后，别上来就直接问。先加一句话：

「先把和我的问题直接相关的原文逐句抄出来，再回答问题。」

就这一句。它会先把那几行原文引出来，再基于抄出来的内容作答。你也能顺便对一眼它抄的对不对，等于多了一道校验。

我自己试下来，最明显的是问长报告里的具体数字那种活。比如塞进去一份几十页的财报，直接问「第三季度毛利率多少、同比怎么变」，十有八九给你个似是而非的数，有时候连哪个季度都对不上。换成「先把和毛利率相关的原文逐句抄出来，再算同比」，它会先把那两三行原话引出来，你一眼就能看到它依据的是哪句，然后再给结论，稳得多，错了你也当场能发现。

这个路子能搬到很多地方。读一份长合同，先让它把和你关心的那条条款相关的原文抄出来再解读；捞一长段会议纪要，先让它把某个人到底答应了什么的原话引出来再下结论；丢一大段代码进去问某个函数干了啥，先让它把那段函数体复述出来再分析。共同点都是一句：先复述，再判断。把「在一大堆里又找又算」拆成「先抄干净，再安心算」。

还有一点想说清楚：这是一个纯粹靠提示词解决的方法，跟你用哪家模型没有关系。你拿 DeepSeek 读年报也好，豆包、Kimi、通义读长文档也好，还是 GPT-4o、Claude 处理长资料，加的都是同一句话。它针对的是所有大模型共有的那个老毛病，不是某一家的独门设置。

说到底，我们总有种错觉，觉得把资料一股脑全喂进去、窗口越大越省事。但这研究等于提醒了一句：喂得进，不等于嚼得动。

与其指望它在一大堆里既找得准又算得对，不如多给它一个台阶——先抄一遍。一句话的事，剩下的，你自己拿捏。

#马力的AI知识分享#

发布于北京