小米公开MiMo优化方案

自 MiMo-V2.5 系列 API 永久降价以来，不少开发者好奇：最高降幅 99%，模型能力不变，背后靠的是什么？

今日，我们正式公开 MiMo-V2.5 系列模型推理系统全链路优化技术方案：围绕 Hybrid SWA + MoE + 多模态复合架构，从 KVCache 管理、前缀缓存、调度策略到 Prefill/Decode 链路逐一优化，将 KVCache 存储压缩至同级方案的约 1/7，在长序列场景下推理成本大幅下降。

这也是业内首篇面向 Hybrid SWA 架构的大规模工程落地方案，部分优化已以 PR 形式回馈 SGLang 开源社区。技术的价值，最终要体现在被使用的广度上——让更多人用到更好的模型。

技术博客链接：http://t.cn/AX6DJL7d http://t.cn/AX6DJL7g

发布于北京