月之暗面发布了Kimi的底层推理平台Mooncake的技术报告
http://t.cn/A6QlMwnN
“Mooncake 是 Moonshot AI 提供的领先大规模语言模型(LLM)服务Kimi的服务平台。其特色在于采用了一种以KVCache为中心的分散式架构,这种架构将预填充(prefill)和解码(decoding)集群分离。此外,Mooncake还利用了GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的分散式缓存,从而提高了资源利用率。Mooncake的核心是一个围绕KVCache优化的调度器,该调度器在满足与延迟相关的服务等级目标(SLOs)的同时,力求最大化整体的有效吞吐量。
与那些假设所有请求都将被处理的传统研究不同,Mooncake需要应对高度过载场景带来的挑战。为了解决这一问题,我们开发了一种基于预测的早期拒绝策略,以减轻系统负载。实验结果显示,Mooncake在长上下文场景中表现尤为出色。在某些模拟场景下,与基线方法相比,Mooncake能在遵守SLO的前提下,吞吐量提升高达525%。在实际工作负载下,Mooncake创新的架构使Kimi能够处理多出75%的请求,显著提升了服务能力和效率。”
发布于 山东
