蚁工厂
26-05-28 08:04 微博认证:科技博主

罗福莉解释小米Mimo降价的技术原因:
------------
降幅最大的项目是 Input(Cache Hit),最高降幅达 99%。核心原因在于,我们的推理框架现在已经支持针对 SWA 的分层 KV cache 优化。生产推理引擎测试显示,这项优化将可缓存 token 容量提升了 5 倍,相当于缓存成本降低了 80%。再加上 Hybrid 模型中多个 Full Attention 模块之间的 Cache Read Overlap,实际成本进一步下降。

Input(Cache Miss)和 Output 的价格也下调了 60%–80%。这主要得益于模型架构带来的极致 1:7 Full:SWA 稀疏比例。换句话说,70 层 MiMo-V2.5-Pro 的 prefill 计算量,大致相当于一个 10 层 GQA 模型。这让我们的原始推理成本本就远低于行业平均水平,也自然在定价中留下了 2–3 倍的利润空间。本次价格调整,只是我们决定把这些结构性成本优势直接让利给开发者。

在新的 API 价格下,我们的生产推理引擎已接近满负载运行,同时基本仍能做到盈亏平衡。我们此前建议 LLM 公司不要“盲目降价”,正是因为很少有模型架构和推理优化能力,能够在 API 大幅降价后仍避免亏损。如果未来出现更多节省计算量和 KV cache 的架构,再配合更好的推理基础设施来降低 API 成本,将会在行业内形成非常好的正向循环。

更重要的是,价格可负担且性能强大的模型 API,将推动真实、持续、大规模的推理需求。这种上游需求会拉动整个 AI 基础设施链条的发展,包括芯片、服务器、光模块、PCB、液冷、电力、储能和数据中心,并成为 AI 硬件系统性重估的战略支点。长期来看,这会为训练和推理链路注入更便宜、更易获得的算力,推动全球 AGI 在多个地区和多条技术路线上的并行演进。

更多技术细节,我们后续会发布一篇详细的 Blog。

#AI创造营#

发布于 山东