通义实验室 25-11-27 18:07
微博认证:通义大模型官方微博

停下来,恭喜我![打call]

很开心和大家分享一个进展:
通义千问团队关于 “门控注意力机制”(Gated Attention)的研究,被 NeurIPS 2025 评为最佳论文。
论文《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》系统揭示了“门控”在注意力机制中的作用机理。
我们通过在 1.7B 稠密模型与 15B MoE 模型上训练 3.5 万亿 token,对比 30+ 组控制实验,我们发现:
● 最有效的门控位置:在每个注意力头输出后加入 head-specific sigmoid gate
● 核心机理:✔️ 引入注意力映射中的非线性✔️ 生成输入相关的稀疏性(query-dependent sparsity)
● 关键收益:• 消除注意力池(Attention Sink):首 token 注意力占比 46.7% → 4.8%• 抑制巨量激活(Massive Activation):最大激活值 1053 → 94• 显著提升训练稳定性,大幅减少 loss spike• 改善长上下文外推能力

该技术已应用于 Qwen3-Next 系列模型,相关代码、实验模型和产品级模型均已开源,欢迎大家进入GitHub、Hugging Face、ModelScope体验。

特别感谢 NeurIPS 评审委员会的认可:
“这项工作代表了巨大的研究投入,只有在工业级计算资源支持下才可能完成。作者愿意公开分享成果,将极大推动社区对大语言模型注意力机制的理解——这在当前 LLM 领域科学共享日益减少的环境下,尤其值得称赞。”
#通义#

发布于 浙江