没想道这个赛道还会出来有意思的玩意[思考]prima.cpp 和 llama.cpp 最大的区别在于 prima.cpp 是一个分布式推理系统，旨在利用多个异构设备的资源（CPU、GPU、内存、磁盘，式的你没看错，磁盘页能用，这明白人一看就知道干嘛的）来加速大型语言模型的推理，而 llama.cpp 主要是一个在单个设备上运行LL

没想道这个赛道还会出来有意思的玩意[思考]
prima.cpp 和 llama.cpp 最大的区别在于 prima.cpp 是一个分布式推理系统，旨在利用多个异构设备的资源（CPU、GPU、内存、磁盘，式的你没看错，磁盘页能用，这明白人一看就知道干嘛的）来加速大型语言模型的推理，而 llama.cpp 主要是一个在单个设备上运行LLM推理的引擎。

分布式与单设备：这是最核心的区别。prima.cpp 的设计目标是跨多个设备协同工作，通过管道环形并行（piped-ring parallelism）将模型的不同部分分配到集群中的各个设备上进行计算。而 llama.cpp 主要是在单个机器上运行，尽管它也可以利用该机器上的多个核心（CPU 和 GPU）。
异构性利用：prima.cpp 专门建模和分析了家庭集群中不同设备的异构性，包括计算能力、内存大小、磁盘速度、通信延迟和操作系统特性。它提出了 Halda 算法来根据这些异构性优化模型层到设备的分配，以及每个设备上 CPU 和 GPU 之间的工作负载分配。llama.cpp 虽然也可以在具有不同硬件的设备上运行，但其核心设计并没有强调跨多个异构设备的协同优化。
内存管理与磁盘卸载：prima.cpp 使用 mmap 来懒加载模型权重，并且支持磁盘卸载（disk offloading），使得集群的总内存可以小于模型的大小。玩的花的在这，它通过预取（prefetching）技术来隐藏磁盘加载延迟。其实llama.cpp 也能使用 mmap 进行懒加载，但 prima.cpp 在此基础上，通过分布式架构和预取机制，更有效地管理跨设备的内存和磁盘IO。
并行策略：prima.cpp 采用了管道环形并行（piped-ring parallelism），设备连接成环状，每个设备处理一部分模型层并将结果传递给下一个设备，从而实现模型的分布式推理。llama.cpp 主要是在单个设备内部进行计算并行化（例如，利用多核 CPU 或单个 GPU）。
对大型模型的支持：由于其分布式和异构感知的特性，prima.cpp 能够在资源有限的家庭集群上运行 70B 级别的大型模型，并且在 30B 以上的模型上性能显著优于 llama.cpp。llama.cpp 在运行非常大的模型时，可能会因为单个设备的内存限制而遇到困难。
适用场景：prima.cpp 专注于家庭集群这种特定的低资源环境，旨在将先进的AI能力带到用户的个人设备上。llama.cpp 则更通用，可以在各种设备上运行，从手机到高性能服务器。 http://t.cn/A6r1wJs1

发布于日本