#小米MiMo模型API降价#
小米这个模型为什么能降价?
其实小米MIMO官方已经说明原因了,如下:
我们基于 SGLang HiCache 完整支持 SWA(Sliding Window Attention),将 KV Cache 在 GPU 显存、CPU 内存、SSD 等多级存储之间的数据搬运量降低至优化前的近 1/7,并将可缓存 token 数量提升至优化前的近 5 倍,显著提升了缓存命中率和推理效率。
同时,我们通过优化专家并行方案、输入长度分桶策略等,进一步提升了集群输入吞吐能力,从而在保障服务质量的前提下持续降低单位 token 服务成本。
SGlang是一个开源的推理引擎。
那么HiCache是个什么技术呢?
就是可以把kvcache分级缓存到显存,内存,SSD硬盘的技术。
就是说,ssd硬盘也能存大模型推理的cache了,这个容量很大,而且ssd硬盘相对便宜。
有人测过了,小米mimo的缓存命中率能达到94%。
这就是降价的底气。
这样一来,其它厂商不跟也不行了,毕竟deepseek降了,小米也降了,还是开源的。
老美的大模型公司瑟瑟发抖,一旦国产模型性能赶上来,
他们那个估值还能维持吗?
最后,利好ssd硬盘和内存。
发布于 江苏
