karminski-牙医 26-01-06 07:00
微博认证:AI博主

llama.cpp 也要跻身高性能推理引擎了?

ik_llama.cpp (llama.cpp 的一个高性能分支), 最近合并了一个性能提升巨大的PR, 让原有的生成速度最高提升了4x!

原理很简单, 之前的 llama.cpp 要么流水线并行——将大模型参数分割加载到几块显卡上, 这样能容纳更大的模型, 但是缺点是显卡1先算, 算完了显卡2再算. 速度无提升.

真正可以并行的是张量并行, 几块显卡可以一起算, 速度叠加. 这次则是使用了 NVIDIA NCCL 库, 这个库可以加速 GPU 间通信, 甚至实现GPU访问相邻GPU的显存. 从而让张量并行的速度进一步得到提升 (主要还是消除了一部分流水线等待).

不过需要注意的是, 这个模型在大于2块显卡的时候才会比较明显, 另外推理引擎参数很复杂, 需要不断调试才能取得最佳效果, 比如作者说, 使用 k-quants(或其他块大小为 256 的量化方式)量化的 Qwen3-30B-A3B 模型,在超过 3 块 GPU 时无法工作。因为路由专家的 FFN 大小仅为 768,恰好是 3 个 256 的块,因此当使用 4 块或更多 GPU 时,某些 GPU 将分配到空分片,从而导致崩溃.

#ai生活指南# #ai创造营#

发布于 日本