RAG架构或将被淘汰

Nicolas Bustamante 这篇《RAG讣告》，观点很大胆：过去三年大家疯狂优化的RAG架构，可能要被淘汰了。
原文地址放在最后👇

作者在金融AI领域干了十年，最近发现一个颠覆性的事实。

传统RAG系统的逻辑是这样的：因为早期大模型上下文窗口太小，GPT-3.5只能处理4096个token，相当于6页纸，你根本没法把整份文档塞进去。
所以大家想了个办法，把文档切成小块，转成向量，用的时候搜索相关片段喂给模型。

听起来很聪明，但实际操作起来简直是灾难。
举个具体例子，假设你要分析一份SEC 10-K年报，大概有5万个token。用RAG处理的话，先把它切成几百个chunk，每个500词左右。
问题来了：一个风险因素的描述可能被切断，财务表格的表头和数据分在不同chunk，交叉引用全散了。

比如你问公司的诉讼风险有多大，RAG搜出50个相关chunk，报告说是5亿美元。
但实际情况是：法律诉讼栏目写了5亿，或有负债注释里有7亿，后续事项里新增10亿，赔偿义务8亿，脚注里的可能损失20亿。
真实风险敞口是51亿，是RAG结果的10倍。

而且整套基础设施非常复杂，你得维护Elasticsearch集群，处理TB级的索引数据，配128GB内存起步。每次改个架构就要重新索引，花48到72小时。
还要搞混合搜索，语义搜索配关键词搜索，然后用Reranker重新排序，每个环节都可能出错，延迟还增加几百毫秒。
作者说这叫级联失败问题，五个步骤每步都可能挂，错误层层叠加。

转折点来了，今年5月Anthropic发布了Claude Code。
Claude Code根本没用RAG，就是用1973年发明的grep工具直接搜文件。
没有索引，没有向量化，没有重排序，就是简单粗暴地搜，结果又快又准。

为什么？因为上下文窗口革命来了。
Claude Sonnet 4现在能处理20万token，Gemini 2.5能处理100万token，Grok 4快速版能处理200万token。
按这个趋势，2027年可能有1000万token的窗口。

这时候智能体搜索就碾压RAG了，智能体不是检索碎片，而是像人类分析师那样工作：
第一步在财务报表里搜lease，发现写着见注释12；
第二步跳到注释12，看到不含已终止业务见注释23；
第三步查注释23，发现额外20亿债务；
第四步交叉验证管理层讨论与分析；
第五步搜后续事项，找到资产负债表日后终止的5亿租约。

最终算出65亿。整个过程跟着引用线索走，没有chunk，没有向量，没有重排序，就是智能导航。

归根结底，RAG是上下文贫乏时代的权宜之计，现在上下文丰富了，智能体能读完整文档、跟踪引用、理解关系，谁还需要把文档切碎了再拼回去？

原文地址：http://t.cn/AXzQVRCQ

发布于上海