本地大模型调优工具对比

【从Ollama到llama.cpp：本地大模型调优的觉醒之路】

一位Reddit用户分享了从Ollama切换到llama.cpp的心路历程，引发了社区热烈讨论。这不仅是工具的切换，更是对本地推理深度理解的跨越。

核心观点：Ollama是绝佳的入门工具，让你轻松运行和切换各种LLM。但当你明确了真正想要运行的模型后，llama.cpp才是释放硬件潜力的终极选择。

作者的硬件配置并不豪华：一块3060 12GB加三块P102-100矿卡，总共42GB显存，搭配96GB内存和i7-9800x。但通过精细调优，同样的模型从11 tokens/s飙升到21 tokens/s，性能翻倍。

这背后的关键在于：你必须真正理解llama.cpp的每个参数。尤其是面对不均匀的显存配置时，tensor-split、n-gpu-layers、batch-size等参数的组合会产生天壤之别。

社区讨论中涌现出几个重要洞见：

关于参数调优，有经验的用户指出，42GB显存完全可以尝试更大的batch-size（1024）和ubatch-size来进一步提速。同时推荐使用MXFP4版本的模型而非普通量化版本，效果更佳。Flash attention现在已默认开启，无需手动设置。

关于工具选择，有人质疑为何总是讨论Ollama而忽略koboldcpp——它自带GUI，支持STT、TTS和LLM同时运行，无需安装。但支持Ollama的用户反驳：Ollama不只是给新手用的，很多人在无头服务器上运行它，批评者可能根本不理解人们为什么选择它。

关于进阶工具，社区推荐了llama-swap用于模型热切换和多模型并行加载。一个实用场景是：最新llama.cpp在GPT-OSS-120B上更快，但ik_llama.cpp在其他模型上更快，llama-swap让你只需改几个字符就能切换后端。还有用户分享了将ComfyUI与llama-swap配合使用的经验，实现图像生成时的无缝切换。

最值得关注的是llama-fit-params工具。它能自动计算最优的-ot和-ts参数，特别适合多GPU不均匀配置。工具会分析你的显存分布，自动决定哪些层放GPU、哪些溢出到CPU，输出可直接使用的命令行参数。

一些技术细节的纠正也很有价值：不要用sudo运行llama-server，GGML_CUDA_ENABLE_UNIFIED_MEMORY是针对特定硬件的补丁而非通用优化，用--n-cpu-moe比复杂的-ot正则表达式更简洁。

这场讨论揭示了一个朴素的道理：工具的易用性和性能往往是trade-off。Ollama降低了门槛，llama.cpp释放了上限。当你准备好深入理解每个参数的含义时，性能的提升会让你惊叹——同样的硬件，完全不同的体验。

本地推理的魅力正在于此：你拥有完全的控制权，而回报与你投入的理解成正比。

reddit.com/r/LocalLLaMA/comments/1q7uuxo/ok_i_get_it_now_i_love_llamacpp

发布于北京