【DeepSeek梁文锋合著论文获ACL最佳论文奖,提出全新NSA稀疏注意力,效率超全注意力】
在刚刚举办的#计算语言学# 和#自然语言处理# 领域的顶级国际会议 ACL 上,由 DeepSeek 创始人梁文锋亲自署名的论文从 8000 多篇论文中脱颖而出,成为本届大会的最佳论文之一。
该论文的其他合作者分别来自#北京大学# 和美国华盛顿大学,担任第一作者的是 Jingyang Yuan。
在这篇论文中,他们提出了一种名为 NSA 的本机可训练的稀疏注意力机制,该机制将算法创新与硬件优化相结合,以实现高效的长上下文建模。
NSA 采用了一种动态分层稀疏策略,将粗粒度 token 压缩与细粒度 token 选择相结合,以同时保持全局上下文感知和局部精确性。
这一方法通过以下两项关键创新推动了稀疏注意力设计的发展:
一方面,他们通过设计算术强度平衡的算法,并结合针对现代硬件的实现优化,实现了显著的速度提升。
戳链接查看详情:http://t.cn/A6F6k7zu
