【#杨植麟梁文锋论文撞题#，“注意力机制”对大模型意味着什么】2月18日，在大洋彼岸的马斯克秀出最新大模型Grok 3当天，国产AI公司深度求索（DeepSeek）最新一篇论文引发关注，创始人梁文锋在署名之列，并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention，原生稀疏注

【#杨植麟梁文锋论文撞题#，“注意力机制”对大模型意味着什么】2月18日，在大洋彼岸的马斯克秀出最新大模型Grok 3当天，国产AI公司深度求索（DeepSeek）最新一篇论文引发关注，创始人梁文锋在署名之列，并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention，原生稀疏注意力)。据DeepSeek，上下文建模对于下一代语言模型至关重要，但标准注意力机制的高计算成本带来了巨大的计算挑战。NSA（稀疏注意力）在提高效率同时，为提高模型能力提供新的方向，实现将算法创新与硬件对齐的优化相结合，进行高效的长上下文建模。

“此次DeepSeek发布的论文，可以称为基石更新。”业内人士向澎湃新闻记者评论，此前的DeepSeek-R1的瓶颈在于输入上下文能力方面相对不足，此次更新正是解决了原先大模型文字处理的问题。从内容来看，NSA主要针对长上下文高速训练，在长上下文情况下，相比原先的结构有更慢的性能衰减，这导致长思维链的 COT 效果会更好，对于复杂数学推导非常有价值。

值得注意的是，此次论文作者中，梁文锋在作者排名中位列倒数第二。而第一作者是袁景阳（Jingyang Yuan）。据公开信息，袁景阳目前是北京大学硕士研究生，研究领域包括LLM和AI for Science，目前是DeepSeek的实习生，据袁景阳个人主页，他在去年参与7篇论文的撰写。

2月18日，就在DeepSeek论文发布当天，月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS（直译为“MoBA：面向长上下文大语言模型的块注意力混合方法”）》，提出了与NSA类似的稀疏注意力框架MoBA，并设计了一套可以自由切换全注意力和稀疏注意力机制的方式，为已有的全注意力模型更多的适配空间。

据介绍，MoBA是“一种将混合专家（MoE）原理应用于注意力机制的创新方法”，旨在提高长文本处理效率。经过Kimi平台验证，MoBA架构能将处理1M长文本的速度提升6.5倍，将处理10M长文本的速度提升16倍。

Kimi团队表示，开展这项研究的原因在于，在传统注意力机制中，计算复杂度随着序列长度的增加而呈平方级增长，阻碍了模型对长序列的高效处理。MoBA架构能够轻松融入现有模型，不需要高昂的训练成本，并实现与全注意力模式的无缝切换。http://t.cn/A61MifFw