llama.cpp提升V100上下文

还得是llama.cpp！Tesla V100(32G)在vllm中虽然并发性能强，但是用不了fp8的kvcache量化，导致Qwen3.6-27B-Q4在4并发下只有29k的上下文，惨不忍睹。

于是改用据说对旧显卡优化极好的llama.cpp，因为是从软件层面实现的kvcache量化，V100可以开启KV的fp8量化和Flash Attention，结合模型原本的GQA优化，即使我用Q6精度的模型+262K模型支持上限的上下文，整体的显存占用是31475MiB / 32768MiB，剩余1.2G的冗余。这样同样支持多并发，虽然没有vllm的并发性能那么强，但上下文有10倍的差距，而且精度还是Q6和Q4的巨大领先。

这样的组合无论是从模型精度，还是上下文长度，都极其适合agent编程，我认为是V100的终极应用了，除非Qwen再开源一个100M上下文的新27B稠密模型。

发布于上海