小米技术降价解读

我最喜欢的小米技术最近沉迷发文。

我知道这么长的东西大家普遍懒得看，我做一篇简短的解读：

Q1、为什么降价幅度这么夸张？
A1、大模型推理的核心开销是KVCache，MiMo使用了Hybrid SWA 可以在架构上省成本。

Q2、怎么节省的KVCache？
A2、把KVCache拆成两个独立的池——完整注意力的长期保存，滑动窗口的按需淘汰，效率直接提升7倍，不再有打个招呼“Hi”一下就烧掉上万Token的情况。

Q3、为什么干这事？
A2、官方的回答是"技术的价值，最终要体现在被使用的广度上。让更多人能用到更好的模型——这是 MiMo 不变的使命。"
呱唧呱唧
👏👏👏👏👏

发布于辽宁