长上下文与CAG对比

随着大模型上下文窗口从早期的 4000 个 token 飙升到现在的 200 万个 token，直接把所有文档塞进提示词的长上下文方案变得非常流行。这种做法免去了搭建 RAG 检索管道的麻烦，但也带来了高昂的成本和延迟。每次提问都要让模型把几十万字重新读一遍，不仅钱包受不了，还容易遇到 “中间遗失” 的准确率下降问题。

为了解决重复阅读的痛点，CAG 也就是缓存增强生成提供了一个聪明的思路。它的核心是利用 KV 缓存，把模型对文档的理解和工作记忆一次性计算好并保存下来。当有新问题进来时，模型直接加载这个缓存就能给出答案。在实际应用中，这种方式能带来 10 倍甚至 40 倍的速度提升。

当然，CAG 也有自己的适用边界。如果数据天天变动，频繁重新计算缓存的成本反而会抵消延迟优势。所以它最适合知识库相对稳定的场景，比如回答员工手册的 HR 助手。相比之下，一次性的文档分析依然是长上下文的天下。

现在主流大模型厂商提供的 Prompt Caching 提示词缓存功能，本质上就是把 CAG 变成了开箱即用的服务。它不仅能省去重复处理文档的时间，还能带来高达 90% 的账单折扣。这让开发者不需要自己折腾复杂的缓存架构，就能轻松享受到极速推理的红利。

#CAG##AI科普##HOW I AI# http://t.cn/AX6xSN8E

发布于上海