月之暗面发布了Kimi的底层推理平台Mooncake的技术报告http://t.cn/A6QlMwnN“Mooncake 是 Moonshot AI 提供的领先大规模语言模型（LLM）服务Kimi的服务平台。其特色在于采用了一种以KVCache为中心的分散式架构，这种架构将预填充（prefill）和解码（decoding）集群分离。此外，Mooncake还利用了GPU集

月之暗面发布了Kimi的底层推理平台Mooncake的技术报告
http://t.cn/A6QlMwnN
“Mooncake 是 Moonshot AI 提供的领先大规模语言模型（LLM）服务Kimi的服务平台。其特色在于采用了一种以KVCache为中心的分散式架构，这种架构将预填充（prefill）和解码（decoding）集群分离。此外，Mooncake还利用了GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的分散式缓存，从而提高了资源利用率。Mooncake的核心是一个围绕KVCache优化的调度器，该调度器在满足与延迟相关的服务等级目标（SLOs）的同时，力求最大化整体的有效吞吐量。

与那些假设所有请求都将被处理的传统研究不同，Mooncake需要应对高度过载场景带来的挑战。为了解决这一问题，我们开发了一种基于预测的早期拒绝策略，以减轻系统负载。实验结果显示，Mooncake在长上下文场景中表现尤为出色。在某些模拟场景下，与基线方法相比，Mooncake能在遵守SLO的前提下，吞吐量提升高达525%。在实际工作负载下，Mooncake创新的架构使Kimi能够处理多出75%的请求，显著提升了服务能力和效率。”

发布于山东