Nicolas Bustamante 这篇《RAG讣告》,观点很大胆:过去三年大家疯狂优化的RAG架构,可能要被淘汰了。
原文地址放在最后👇
作者在金融AI领域干了十年,最近发现一个颠覆性的事实。
传统RAG系统的逻辑是这样的:因为早期大模型上下文窗口太小,GPT-3.5只能处理4096个token,相当于6页纸,你根本没法把整份文档塞进去。
所以大家想了个办法,把文档切成小块,转成向量,用的时候搜索相关片段喂给模型。
听起来很聪明,但实际操作起来简直是灾难。
举个具体例子,假设你要分析一份SEC 10-K年报,大概有5万个token。用RAG处理的话,先把它切成几百个chunk,每个500词左右。
问题来了:一个风险因素的描述可能被切断,财务表格的表头和数据分在不同chunk,交叉引用全散了。
比如你问公司的诉讼风险有多大,RAG搜出50个相关chunk,报告说是5亿美元。
但实际情况是:法律诉讼栏目写了5亿,或有负债注释里有7亿,后续事项里新增10亿,赔偿义务8亿,脚注里的可能损失20亿。
真实风险敞口是51亿,是RAG结果的10倍。
而且整套基础设施非常复杂,你得维护Elasticsearch集群,处理TB级的索引数据,配128GB内存起步。每次改个架构就要重新索引,花48到72小时。
还要搞混合搜索,语义搜索配关键词搜索,然后用Reranker重新排序,每个环节都可能出错,延迟还增加几百毫秒。
作者说这叫级联失败问题,五个步骤每步都可能挂,错误层层叠加。
转折点来了,今年5月Anthropic发布了Claude Code。
Claude Code根本没用RAG,就是用1973年发明的grep工具直接搜文件。
没有索引,没有向量化,没有重排序,就是简单粗暴地搜,结果又快又准。
为什么?因为上下文窗口革命来了。
Claude Sonnet 4现在能处理20万token,Gemini 2.5能处理100万token,Grok 4快速版能处理200万token。
按这个趋势,2027年可能有1000万token的窗口。
这时候智能体搜索就碾压RAG了,智能体不是检索碎片,而是像人类分析师那样工作:
第一步在财务报表里搜lease,发现写着见注释12;
第二步跳到注释12,看到不含已终止业务见注释23;
第三步查注释23,发现额外20亿债务;
第四步交叉验证管理层讨论与分析;
第五步搜后续事项,找到资产负债表日后终止的5亿租约。
最终算出65亿。整个过程跟着引用线索走,没有chunk,没有向量,没有重排序,就是智能导航。
归根结底,RAG是上下文贫乏时代的权宜之计,现在上下文丰富了,智能体能读完整文档、跟踪引用、理解关系,谁还需要把文档切碎了再拼回去?
原文地址:http://t.cn/AXzQVRCQ
