Deepseek官方X账号今日介绍团队最新发表的一篇论文。团队提出了NSA(Native Sparse Attention)机制,结合了算法创新和硬件对齐优化,以实现高效的长上下文建模。NSA采用动态分层稀疏策略,结合粗粒度token压缩和细粒度token选择,以保持全局上下文意识和局部精度,且在不牺牲性能的同时换来更快的速度和更低成本。
论文指出,在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。
发布于 浙江
