小米MiMo为何降价

#小米MiMo模型API降价#
小米这个模型为什么能降价？

其实小米MIMO官方已经说明原因了，如下:
我们基于 SGLang HiCache 完整支持 SWA（Sliding Window Attention），将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7，并将可缓存 token 数量提升至优化前的近 5 倍，显著提升了缓存命中率和推理效率。

同时，我们通过优化专家并行方案、输入长度分桶策略等，进一步提升了集群输入吞吐能力，从而在保障服务质量的前提下持续降低单位 token 服务成本。

SGlang是一个开源的推理引擎。
那么HiCache是个什么技术呢？
就是可以把kvcache分级缓存到显存，内存，SSD硬盘的技术。
就是说，ssd硬盘也能存大模型推理的cache了，这个容量很大，而且ssd硬盘相对便宜。

有人测过了，小米mimo的缓存命中率能达到94%。
这就是降价的底气。

这样一来，其它厂商不跟也不行了，毕竟deepseek降了，小米也降了，还是开源的。
老美的大模型公司瑟瑟发抖，一旦国产模型性能赶上来，
他们那个估值还能维持吗？

最后，利好ssd硬盘和内存。

发布于江苏