机智的娜娜
26-05-30 21:20 微博认证:汽车博主

我最喜欢的小米技术最近沉迷发文。

我知道这么长的东西大家普遍懒得看,我做一篇简短的解读:

Q1、为什么降价幅度这么夸张?
A1、大模型推理的核心开销是KVCache,MiMo使用了Hybrid SWA 可以在架构上省成本。

Q2、怎么节省的KVCache?
A2、把KVCache拆成两个独立的池——完整注意力的长期保存,滑动窗口的按需淘汰,效率直接提升7倍,不再有打个招呼“Hi”一下就烧掉上万Token的情况。

Q3、为什么干这事?
A2、官方的回答是"技术的价值,最终要体现在被使用的广度上。让更多人能用到更好的模型——这是 MiMo 不变的使命。"
呱唧呱唧
👏👏👏👏👏

发布于 辽宁