自 MiMo-V2.5 系列 API 永久降价以来,不少开发者好奇:最高降幅 99%,模型能力不变,背后靠的是什么?
今日,我们正式公开 MiMo-V2.5 系列模型推理系统全链路优化技术方案:围绕 Hybrid SWA + MoE + 多模态复合架构,从 KVCache 管理、前缀缓存、调度策略到 Prefill/Decode 链路逐一优化,将 KVCache 存储压缩至同级方案的约 1/7,在长序列场景下推理成本大幅下降。
这也是业内首篇面向 Hybrid SWA 架构的大规模工程落地方案,部分优化已以 PR 形式回馈 SGLang 开源社区。技术的价值,最终要体现在被使用的广度上——让更多人用到更好的模型。
技术博客链接:http://t.cn/AX6DJL7d http://t.cn/AX6DJL7g
发布于 北京
