小米提出混合稀疏注意力架构

Xiaomi MiMo 提出一种面向 Agent 时代的混合稀疏注意力架构。

其核心设计非常简洁：用极少的全注意力（Full Attention）层提供 “token 选择 + KV Cache”，其余稀疏注意力（Sparse Attention）层直接复用这些信息，实现高效精准的长上下文建模。在总共 49 层的 80B-A3B MoE 模型实验中，仅保留 5 层 Full Attention 仍能保持甚至提升模型能力，同时显著降低 KV Cache 存储与计算开销，实现效果与效率的兼顾。

HySparse 展示了混合稀疏注意力在超长上下文建模中的巨大潜力。

发布于四川