神店通缉令 26-02-06 18:52
微博认证:评论人

Xiaomi MiMo 提出一种面向 Agent 时代的混合稀疏注意力架构。

其核心设计非常简洁:用极少的全注意力(Full Attention)层提供 “token 选择 + KV Cache”,其余稀疏注意力(Sparse Attention)层直接复用这些信息,实现高效精准的长上下文建模。在总共 49 层的 80B-A3B MoE 模型实验中,仅保留 5 层 Full Attention 仍能保持甚至提升模型能力,同时显著降低 KV Cache 存储与计算开销,实现效果与效率的兼顾。

HySparse 展示了混合稀疏注意力在超长上下文建模中的巨大潜力。

发布于 四川