前面讲的用 6G 显存的 GTX 1660 Ti 跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 速度能达到 21 t/s ~ 25 t/s 的这个实验(http://t.cn/AXVDKLHR),有人问是不是用这个机器跑别的模型也可以。
首先,并不能因为 35B 的 Qwen3.5-35B-A3B 在这个机器上能跑,所以认为 27B 的 Qwen3.5-27B 肯定也可以。实际上即使 Qwen3.5-9B 跑起来也很慢,只有 6 t/s。这主要是因为 Qwen3.5-35B-A3B 是 MoE 模型,激活参数只有 3B。也就是说,对显存较小机器来说,Qwen3.5-35B-A3B 是 Qwen3.5 系列中最适合的。
另外,总参数 30B 激活参数 3B 的 GLM-4.7-Flash-Q4_K_M 也量化到 Q4,同样用 llama.cpp 在这台机器上的速度大约 13 t/s。Qwen3.5 的速度更快可能和它用了混合注意力设计、软件优化更好等因素等有关。所以,不仅在 Qwen3.5 系列中,而是在当前所有模型中,Qwen3.5-35B-A3B 可能都是小显存机器跑大模型的最优解。
如果你有类似硬件,想体验一下,但对技术了解不多,可以参考下面的最简化尝试步骤(假设你的操作系统是 Windows):
1、下载 llama.cpp
github.com/ggml-org/llama.cpp/releases/download/b8352/llama-b8352-bin-win-cuda-12.4-x64.zip
github.com/ggml-org/llama.cpp/releases/download/b8352/cudart-llama-bin-win-cuda-12.4-x64.zip
把两个压缩包解开,文件放进同一个目录。假设该目录名字是 llama。
2、下载 Qwen3.5-35B-A3B-Q4_K_M.gguf
huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/resolve/main/Qwen3.5-35B-A3B-Q4_K_M.gguf?download=true
建议存放在固态硬盘而不是机械硬盘上,这会直接影响接下来加载模型的速度。
3、在命令行执行 llama 目录中的 llama-cli:
llama-cli -m Qwen3.5-35B-A3B-Q4_K_M.gguf
发布于 北京
