爱可可-爱生活
26-07-02 05:26 微博认证:AI博主 2025微博新锐新知博主

[CL]《SeKV: Resolution-Adaptive KV Cache with Hierarchical Semantic Memory for Long-Context LLM Inference》A Abaskohi, G Carenini, P West, Y He [University of British Columbia & Microsoft Research] (2026)

在长文本大模型推理领域,KV 缓存的线性增长是一个悬而未决的难题。过去的方法受困于「信息丢失」与「静态压缩」的权衡,本质原因是它们在压缩阶段就永久丢弃了 Token 细节,导致生成过程中无法找回原本看似无关但后续关键的证据。

本文的核心洞见是:把 KV 缓存重新看作一种分层语义存储系统。由此,利用信息熵自动切分语义片段,并在 GPU 存储轻量级摘要进行快速路由,在 CPU 存储低秩 SVD 基底进行按需重建,这一关键操作使模型能在不丢弃任何信息的前提下,动态「放大」并还原查询相关的 Token 细节。

这项工作真正留下的遗产是证明了 KV 缓存不需要在全量细节与彻底丢弃之间二选一。它为后来者打开的新门是基于查询感知的动态分辨率缓存架构,在减少 53% 显存的同时提升了检索精度,但尚未跨过的门槛是跨设备带宽带来的潜在延迟波动,以及对极度碎片化文本的语义切分鲁棒性。

arxiv.org/abs/2606.31145 #机器学习# #人工智能# #论文# #AI创造营#

发布于 北京