零重力瓦力
26-05-24 16:07 微博认证:AI博主

随着大模型上下文窗口从早期的 4000 个 token 飙升到现在的 200 万个 token,直接把所有文档塞进提示词的长上下文方案变得非常流行。这种做法免去了搭建 RAG 检索管道的麻烦,但也带来了高昂的成本和延迟。每次提问都要让模型把几十万字重新读一遍,不仅钱包受不了,还容易遇到 “中间遗失” 的准确率下降问题。

为了解决重复阅读的痛点,CAG 也就是缓存增强生成提供了一个聪明的思路。它的核心是利用 KV 缓存,把模型对文档的理解和工作记忆一次性计算好并保存下来。当有新问题进来时,模型直接加载这个缓存就能给出答案。在实际应用中,这种方式能带来 10 倍甚至 40 倍的速度提升。

当然,CAG 也有自己的适用边界。如果数据天天变动,频繁重新计算缓存的成本反而会抵消延迟优势。所以它最适合知识库相对稳定的场景,比如回答员工手册的 HR 助手。相比之下,一次性的文档分析依然是长上下文的天下。

现在主流大模型厂商提供的 Prompt Caching 提示词缓存功能,本质上就是把 CAG 变成了开箱即用的服务。它不仅能省去重复处理文档的时间,还能带来高达 90% 的账单折扣。这让开发者不需要自己折腾复杂的缓存架构,就能轻松享受到极速推理的红利。

#CAG##AI科普##HOW I AI# http://t.cn/AX6xSN8E

发布于 上海