梁斌penny
26-06-24 18:21 微博认证:知名互联网博主 2025微博年度新知博主

Agent的兴起让内存需求至少涨了10倍,此前是一步一个确认,和人一句一句交互。现在是Agent内部交互,最后结果给人。

内存暴涨的真正原因,是Agent的循环机制下,上下文不断累积 + KV cache反复重读导致的,每多一轮,整个膨胀的上下文要重新喂进去一次,KV cache随上下文长度线性增长。群众付的钱大部分是模型在反复重读它已经知道的东西。。。

这里面一定有可改进的点,但是短期只能搞堆内存带宽解决问题,人类的浪费是惊人的。

发布于 江苏