你把一份几十页的资料丢给 AI,它能准确告诉你答案在第几行,可让它接着回答,照样答错。
这事听着别扭,但它不是 AI 偷懒,也不是你问得不好。2025年一篇被 EMNLP Findings 收录的研究,把这件事抠到了很细的地步。它是伊利诺伊大学的 Yufeng Du 和 Amazon 的几位研究者一起做的,名字直接叫《光是上下文变长,就会拖垮大模型,哪怕它检索得完美无缺》。
我把它的做法和你能直接拿走的那一招讲清楚,后面这一招放在任何大模型上都能用。
先说他们最反常识的那个发现。
过去大家解释「资料一长 AI 就变笨」,通常归到两个原因:一是关键信息夹在中间会被忽略(就是那个有名的「迷失在中间」),二是无关内容太多,把模型带偏了。这两条都对,但都不是全部。
这群人想知道:把这两个原因全堵死,AI 还会不会变笨?
于是他们做了一组挺极端的实验。把无关的内容全换成空白,等于桌面上别的杂物都清走了;把真正相关的那句证据,紧挨着问题放在最前面,位置好到不能再好;再强制模型只盯着相关信息看。说白了,他们人为造出了一个「完美」的环境:信息百分百找得到、没有任何东西来干扰、位置也最优。
他们一共在5个大模型上试了这套,任务也不是凑数的,数学题、阅读问答、写代码都覆盖到了。这三类有个共同点:找到信息只是第一步,找到之后还得「动脑子」,算一下、推一下、判断一下。这恰恰是检验「找到了但做不对」的好场子。
结果呢,只要把整段输入拉长,准确率照样往下掉,幅度从13.9%一直到85%。而且这些长度都还远没到模型号称能吃下的上限。
这个结论的分量在于:它说明 AI 答错,不是「找不到」,也不是「被带偏」,是长度本身这件事就让它处理变差了。
这就有点反我们的直觉了。我们一般以为,只要 AI 能定位到那句关键信息,剩下的就水到渠成。可它偏偏会出现「明明指给你看了,转头自己却用错」的情况。问题不在眼睛,在脑子。更准确说,在它一边要顾着那一大片输入、一边还要腾出力气来推理,两头一分神,推理那头就先松了。
我打个比方你大概就懂了。
想象一面墙,贴满了花花绿绿的便利贴,答案写在其中一张上。你让一个人把那张找出来,他能一眼指出是哪张——找,他没问题。可你接着让他对着那张便利贴口算上面的一道题,你会发现,他比只盯着这一张纸的时候更容易算错。
不是他没找到,是那一整面墙在背景里晃着,他的注意力被摊薄了,脑子留给「算」的那部分就不够使了。大模型读长资料,是同一种累。
Chroma 后来又用18个主流模型单独验了一遍这件事。GPT-4.1、GPT-4o、Claude、Gemini、还有 Qwen,一个不落,全都是输入越长表现越差。最扎心的是:很多模型在输入远没填满它号称的窗口时,就已经开始明显退化了。所以「上下文窗口很大」和「你真能把它填满还指望它好用」,完全是两回事。
讲到这,重点来了——怎么办。
研究者给的解法朴素得有点出乎我意料:在让 AI 解题之前,先让它把相关的原文,原样抄一遍。
就这么一个动作。先抄,再答。
放到刚才那个比方里,相当于你让那个人别急着算,先把便利贴上的题,工工整整抄到面前一张干净的草稿纸上,然后低头对着这一行算。那一整面墙就退到背景里去了,他面对的,又变回了一道干净利落的短题。
对模型来说是一样的:它把相关证据复述出来的那一刻,等于自己给自己重建了一段又短又干净的上下文,后面的推理就是基于这一小段做的。一道长上下文的难题,被它自己压成了一道短上下文的易题。研究里在一个标准测试上试了下,光这一招就让 GPT-4o 的成绩往上提了大约4%。
那你具体该怎么用?很简单,贴完一份长资料、或者一大段聊天记录之后,别上来就直接问。先加一句话:
「先把和我的问题直接相关的原文逐句抄出来,再回答问题。」
就这一句。它会先把那几行原文引出来,再基于抄出来的内容作答。你也能顺便对一眼它抄的对不对,等于多了一道校验。
我自己试下来,最明显的是问长报告里的具体数字那种活。比如塞进去一份几十页的财报,直接问「第三季度毛利率多少、同比怎么变」,十有八九给你个似是而非的数,有时候连哪个季度都对不上。换成「先把和毛利率相关的原文逐句抄出来,再算同比」,它会先把那两三行原话引出来,你一眼就能看到它依据的是哪句,然后再给结论,稳得多,错了你也当场能发现。
这个路子能搬到很多地方。读一份长合同,先让它把和你关心的那条条款相关的原文抄出来再解读;捞一长段会议纪要,先让它把某个人到底答应了什么的原话引出来再下结论;丢一大段代码进去问某个函数干了啥,先让它把那段函数体复述出来再分析。共同点都是一句:先复述,再判断。把「在一大堆里又找又算」拆成「先抄干净,再安心算」。
还有一点想说清楚:这是一个纯粹靠提示词解决的方法,跟你用哪家模型没有关系。你拿 DeepSeek 读年报也好,豆包、Kimi、通义读长文档也好,还是 GPT-4o、Claude 处理长资料,加的都是同一句话。它针对的是所有大模型共有的那个老毛病,不是某一家的独门设置。
说到底,我们总有种错觉,觉得把资料一股脑全喂进去、窗口越大越省事。但这研究等于提醒了一句:喂得进,不等于嚼得动。
与其指望它在一大堆里既找得准又算得对,不如多给它一个台阶——先抄一遍。一句话的事,剩下的,你自己拿捏。
#马力的AI知识分享#
发布于 北京
