SeKV自适应KV缓存|sekv|kv缓存|长文本大模型推理|动态分辨率缓存

[CL]《SeKV: Resolution-Adaptive KV Cache with Hierarchical Semantic Memory for Long-Context LLM Inference》A Abaskohi, G Carenini, P West, Y He [University of British Columbia & Microsoft Research] (2026)

在长文本大模型推理领域，KV 缓存的线性增长是一个悬而未决的难题。过去的方法受困于「信息丢失」与「静态压缩」的权衡，本质原因是它们在压缩阶段就永久丢弃了 Token 细节，导致生成过程中无法找回原本看似无关但后续关键的证据。

本文的核心洞见是：把 KV 缓存重新看作一种分层语义存储系统。由此，利用信息熵自动切分语义片段，并在 GPU 存储轻量级摘要进行快速路由，在 CPU 存储低秩 SVD 基底进行按需重建，这一关键操作使模型能在不丢弃任何信息的前提下，动态「放大」并还原查询相关的 Token 细节。

这项工作真正留下的遗产是证明了 KV 缓存不需要在全量细节与彻底丢弃之间二选一。它为后来者打开的新门是基于查询感知的动态分辨率缓存架构，在减少 53% 显存的同时提升了检索精度，但尚未跨过的门槛是跨设备带宽带来的潜在延迟波动，以及对极度碎片化文本的语义切分鲁棒性。

arxiv.org/abs/2606.31145 #机器学习# #人工智能# #论文# #AI创造营#

发布于北京