海森堡的布偶咕咕咕
26-05-27 12:17 微博认证:数码博主

#小米MiMo模型API降价#
这价格是直接变身大模型斩杀线了啊.......关键还有token Plan!

之前因为mimo的token消耗快价格高,随便一任务务执行吓跑了很多人,虽然v2.5有体验优势但是没价格优势,结果凌晨的时候mimo官宣降价,没想到这么猛,直接对着脚脖子砍,直接从国模里好用但是贵,直接变成了超级性价比[捂嘴哭]

到群里看了眼,不是因为打价格战降价,是对于KV Cache的快速优化,基于 SGLang HiCache 完整支持SWA(Sliding WindowAttentiom),将KV Cache 在多级存储之间的数据搬运量降低至优化前的近1/7,并将可缓存token数量提升至优化前的近5倍,显著提升了缓存命中率和推理效率,所以你看到命中缓存后的输入成本只需要原来的2%和1%

这就很可怕了,整体价格1/6到1/8,缓存命中后只要1%-2%,性价比杀过来了~

发布于 广东