26-04-19 03:15

Kimi 新论文用 PD 分离从底层基建重构 LLM 推理降本
周末 Kimi 月之暗面和清华发的新论文 Prefill-as-a-Service.
不卷跑分, 全在死磕底层算力调度的物理成本.

核心工程解法:
1. 打破物理边界. 把 PD 分离架构扩展到单一集群之外, 实现跨数据中心和异构硬件的算力调度.
2. 混合架构破局. 用 Kimi Linear 混合模型压缩 KV Cache 体积, 解决跨机房传输的带宽瓶颈.
3. 跑分转化成本. 20 倍放大的 Kimi Linear 模型上实测, 吞吐量提升 1.54 倍, P90 首字延迟暴降 64%. 直接转化为更低的 token 成本.

说人话就是, 以后 API 价格战, 底层拼的就是这种调度魔术.

论文地址:
http://t.cn/AXxAPXP0

发布于 四川