CPU推理速度测试

tombkeeper 26-03-18 21:09

微博认证：2025微博新锐新知博主科技博主

如果显卡算力不行，但又需要用本地模型，可以考虑纯 CPU 推理。我试了一下用 ThinkPad X1 Carbon Gen 13 跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 也能有 14 t/s 的速度。注意 llama.cpp 的参数要加上 -t 8 和 -ngl 0。

发布于北京