ik_llama.cpp实现多GPU推理突破

【多GPU推理迎来重大突破：ik_llama.cpp实现3-4倍性能飞跃】

ik_llama.cpp项目悄然取得了一项令本地LLM推理领域振奋的突破。这不是渐进式的小改进，而是多GPU配置下3到4倍的速度提升。

+ 核心创新：图分割模式

虽然多GPU运行本地模型早已可行，但过去的方案要么只是简单地将显存池化，要么性能扩展极为有限。ik_llama.cpp团队引入的新执行模式“split mode graph”真正实现了多GPU的并行最大化利用。

这项改进的意义在于：在显卡和内存价格处于历史高位的今天，我们不再需要昂贵的企业级高端显卡。相反，可以用多张低成本消费级GPU组建高效推理系统。有用户在4×3090配置上跑70B模型达到了30-40 t/s的生成速度，这是此前任何后端都未能实现的。

+ 技术细节与限制

从GitHub PR来看，当前实现基于NCCL进行GPU间通信，但开发者坦言对于超过4张GPU的配置，存在NCCL使用不够优化的问题——PP性能可能下降2倍以上。目前通过成对通信器的变通方案支持3-4张GPU，更多GPU建议禁用NCCL。

支持的模型范围仍在扩展中，目前包括Llama、Qwen、Devstral等主流架构，但DeepSeek等采用MLA架构的模型尚未支持。

+ 单GPU用户同样受益

值得注意的是，即使在单GPU或纯CPU环境下，ik_llama.cpp在提示词处理速度上也普遍比原版快2倍左右。对于AMD Zen 5架构用户，其AVX512_VNNI优化带来的PP性能提升尤为显著。

+ 为何不合并回主线？

这是社区最常问的问题。核心困难在于llama.cpp架构变化太快，任何深度优化在完成后可能需要花费同等时间解决合并冲突，形成无尽循环。这既是项目管理问题，也反映了C++大型项目维护的普遍困境。有开发者预测，未来某个时点可能需要借助AI进行完全重写。

+ 实用建议

想要体验的用户，需要：
- 编译时启用NCCL：`cmake -B build -DGGML_NCCL=ON`
- 启动时使用新参数：`-sm graph`
- 注意模型兼容性，部分模型会回退到layer模式

对于AMD用户，当前仅Vulkan后端可用，但性能提升有限。ROCm支持尚未完善。

当硬件优化与软件优化相乘而非相加时，本地推理的可能性边界正在被重新定义。

reddit.com/r/LocalLLaMA/comments/1q4s8tllamacpp_performance_breakthrough_for_multigpu

发布于北京