tombkeeper 26-03-18 21:09
微博认证:2025微博新锐新知博主 科技博主

如果显卡算力不行,但又需要用本地模型,可以考虑纯 CPU 推理。我试了一下用 ThinkPad X1 Carbon Gen 13 跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 也能有 14 t/s 的速度。注意 llama.cpp 的参数要加上 -t 8 和 -ngl 0。 ​

发布于 北京