1M 上下文显存需求直降 90%! 低显存显卡的福音来了!
大家都知道跑长上下文模型最大的痛点就是显存占用, 100 万 token 的 KV cache 动辄就要上百 GB 显存, 普通玩家根本玩不起. 那有没有办法让我们这些显存贫民也能跑超长上下文呢?
还真有人做到了!
社区大佬 ymcki 刚刚给 llama.cpp 添加了 Kimi-Linear-48B-A3B 的 MLA KV cache 支持. 他发现原作者没有实现 MLA KV cache, 于是参考 DeepSeek-V3 的 MLA kv cache PR 自己补上了这个功能.
效果有多炸裂? 1M token 的 F16 KV cache 显存占用从 140GB 直接降到 14.875GB! 缩小了将近 10 倍! 这意味着你用一张普通的消费级显卡就能跑百万级别的超长上下文了!
更贴心的是, 如果你显存还是不够, 还可以通过 KV Quant 进一步压缩:
- q8_0: 7.9GB
- q5_1: 5.6GB
- q4_0: 4.2GB
最低只需要 4GB 多一点就能跑 1M 上下文!
值得一提的是, KimiLinear 曾经是 contextarena 上召回能力测试表现最好的开源权重模型之一. 暴打一大堆商业模型 (看我P3的截图)
魔改模型在这里:huggingface.co/ymcki/Kimi-Linear-48B-A3B-Instruct-GGUF
#ai生活指南##ai创造营#
发布于 日本
