阿里发布Qwen3-Coder-Next模型

线性注意力时代来临了?

阿里昨天发布了 Qwen3-Coder-Next. 80B 总参数激活 3B, 256K 上下文, 专为代码智能体设计.

这次最大的看点不是参数量, 而是架构 - 用了 Gated DeltaNet 线性注意力. 每 4 层里有 3 层是线性注意力, 只有 1 层用传统注意力. 也就是 75% 的计算都走线性路线了!

为什么线性注意力这么香? 传统 Attention 复杂度是 O(n²), 上下文越长越慢; 线性注意力是 O(n), 长度翻倍计算量也只是翻倍. 对于 256K 这种超长上下文, 这个差距是天壤之别, 不但省算力也省显存.

现在各家都在押注线性注意力了:

- DeepSeek 开源了 FlashMLA (Multi-head Linear Attention), 专门针对 V3/R1 的 MLA 架构做了高效实现, 主打 KV Cache 压缩和推理加速
- Kimi 发布了 Kimi Linear, 用 KDA (Kimi Delta Attention) 扩展了 Gated DeltaNet, 加入更细粒度的门控机制. 3B 激活 48B 总参, 同样是 3:1 混合架构, KV Cache 减少 75%, 1M 上下文解码吞吐提升了 6 倍
- 之前的 Qwen3-Next 系列已经在试水 DeltaNet, 这次 Coder-Next 算是正式量产了

而 DeltaNet 的核心思想是用 Delta Rule 更新机制替代 Softmax, 把注意力变成可递归计算的形式. 这样就不需要存完整的 KV Cache 了, 内存占用大幅下降.

当然线性注意力也是有代价的 - 表达能力理论上弱于传统注意力. 所以 Qwen 的方案是混合架构: 大部分用线性注意力跑效率, 关键位置插入传统注意力保能力. 这个 3:1 的配比应该是各个团队都实验出来的黄金配比.

2026 年是不是就是"线性注意力元年"了?

#HOW I AI#

发布于日本