罗福莉谈Mimo降价

罗福莉解释小米Mimo降价的技术原因：
------------
降幅最大的项目是 Input（Cache Hit），最高降幅达 99%。核心原因在于，我们的推理框架现在已经支持针对 SWA 的分层 KV cache 优化。生产推理引擎测试显示，这项优化将可缓存 token 容量提升了 5 倍，相当于缓存成本降低了 80%。再加上 Hybrid 模型中多个 Full Attention 模块之间的 Cache Read Overlap，实际成本进一步下降。

Input（Cache Miss）和 Output 的价格也下调了 60%–80%。这主要得益于模型架构带来的极致 1:7 Full:SWA 稀疏比例。换句话说，70 层 MiMo-V2.5-Pro 的 prefill 计算量，大致相当于一个 10 层 GQA 模型。这让我们的原始推理成本本就远低于行业平均水平，也自然在定价中留下了 2–3 倍的利润空间。本次价格调整，只是我们决定把这些结构性成本优势直接让利给开发者。

在新的 API 价格下，我们的生产推理引擎已接近满负载运行，同时基本仍能做到盈亏平衡。我们此前建议 LLM 公司不要“盲目降价”，正是因为很少有模型架构和推理优化能力，能够在 API 大幅降价后仍避免亏损。如果未来出现更多节省计算量和 KV cache 的架构，再配合更好的推理基础设施来降低 API 成本，将会在行业内形成非常好的正向循环。

更重要的是，价格可负担且性能强大的模型 API，将推动真实、持续、大规模的推理需求。这种上游需求会拉动整个 AI 基础设施链条的发展，包括芯片、服务器、光模块、PCB、液冷、电力、储能和数据中心，并成为 AI 硬件系统性重估的战略支点。长期来看，这会为训练和推理链路注入更便宜、更易获得的算力，推动全球 AGI 在多个地区和多条技术路线上的并行演进。

更多技术细节，我们后续会发布一篇详细的 Blog。

#AI创造营#

发布于山东