还得是llama.cpp!Tesla V100(32G)在vllm中虽然并发性能强,但是用不了fp8的kvcache量化,导致Qwen3.6-27B-Q4在4并发下只有29k的上下文,惨不忍睹。
于是改用据说对旧显卡优化极好的llama.cpp,因为是从软件层面实现的kvcache量化,V100可以开启KV的fp8量化和Flash Attention,结合模型原本的GQA优化,即使我用Q6精度的模型+262K模型支持上限的上下文,整体的显存占用是31475MiB / 32768MiB,剩余1.2G的冗余。这样同样支持多并发,虽然没有vllm的并发性能那么强,但上下文有10倍的差距,而且精度还是Q6和Q4的巨大领先。
这样的组合无论是从模型精度,还是上下文长度,都极其适合agent编程,我认为是V100的终极应用了,除非Qwen再开源一个100M上下文的新27B稠密模型。
发布于 上海
