Deepseek官方X账号今日介绍团队最新发表的一篇论文。团队提出了NSA（Native Sparse Attention）机制，结合了算法创新和硬件对齐优化，以实现高效的长上下文建模。NSA采用动态分层稀疏策略，结合粗粒度token压缩和细粒度token选择，以保持全局上下文意识和局部精度，且在不牺牲性能的同时换来更快的速度

Deepseek官方X账号今日介绍团队最新发表的一篇论文。团队提出了NSA（Native Sparse Attention）机制，结合了算法创新和硬件对齐优化，以实现高效的长上下文建模。NSA采用动态分层稀疏策略，结合粗粒度token压缩和细粒度token选择，以保持全局上下文意识和局部精度，且在不牺牲性能的同时换来更快的速度和更低成本。
论文指出，在一般基准测试、长上下文任务和基于指令的推理上，它的表现与完全注意力模型相当甚至更好。