是煦煦哟 25-09-30 05:00
微博认证:科技博主 超话小主持人(科技超话)

DeepSeek的稀疏注意力机制即原生稀疏注意力机制(Native Sparse Attention,NSA),它主要通过动态分层稀疏策略、硬件对齐设计和端到端可训练性来实现高效工作
动态分层稀疏策略:首先是粗粒度压缩,将长序列划分为多个子块,如通过聚类或语义分割,把64k长度的文本筛选出包含核心语义的段落,仅保留关键块间的全局关联信息,减少冗余计算。然后进行细粒度选择,在保留的块内,利用注意力评分动态选择局部重要Token,如高频关键词或逻辑连接词,确保局部上下文精度。最后通过滑动窗口,让每个词只关注前后邻居词,如左右各64词,确保不遗漏局部上下文关系。
硬件对齐设计:NSA针对现代GPU架构优化计算流程,通过调整算术强度,最大化利用硬件并行性。将稀疏矩阵运算映射至Tensor Core的高效计算单元,减少显存带宽瓶颈,提升计算效率。
端到端可训练性:传统稀疏注意力机制多采用固定模式,而NSA通过动态路由机制,允许稀疏模式在训练过程中自适应调整。这种设计使得模型能够根据任务需求自主优化注意力分布,避免人工预设模式的局限性,在训练过程中不断学习最优的稀疏结构。
最终,上述三种路径的结果通过“门控机制”智能融合,输出最终注意力结果。#互联网科技# http://t.cn/AX7Sms23

发布于 福建