给大家带来 Qwen3-Next-80B-A3B 新架构的技术解析说实话这个架构我乍一看立刻想到了——推测性解码，同样都是先用精简架构进行快速生成，然后用复杂但是精度高的架构提升生成质量。但是二者还是有决定性的不同之处的，来给大家捋一捋：Qwen3-Next 是先用 Gated DeltaNet，这个是线性注意力机制，计

给大家带来 Qwen3-Next-80B-A3B 新架构的技术解析

说实话这个架构我乍一看立刻想到了——推测性解码，同样都是先用精简架构进行快速生成，然后用复杂但是精度高的架构提升生成质量。但是二者还是有决定性的不同之处的，来给大家捋一捋：

Qwen3-Next 是先用 Gated DeltaNet，这个是线性注意力机制，计算复杂度较低，所以速度非常快，然后将生成内容再输入到 Gated SoftMax Attention 来提升精度。这个架构的优势是，它是并行的，不像推测性解码是串行的（草稿模型先生成，然后再塞给大模型）。所以效率上很不错，虽然与推测性解码并不完全相似，但Qwen3-Next的混合架构确实与分层处理、效率优先、精度补偿的设计理念有相同之处。这可以说是推测性解码思想在模型架构层面的一种创新应用。（我很好奇 Qwen 的研究员是不是真的受到推测性解码启发搞出来的哈哈）

这种设计让模型在保持 80B 总参数的同时只激活 3B 参数，实现了与传统大模型相当的性能，同时获得了 10 倍的推理加速，特别是在处理 32K 以上长上下文时有很大优势。

期待一波这个新架构 Qwen 会不会应用到更大参数量的模型上，比如 Qwen3-Next-320B-A12B 哈哈

#ai生活指南##ai创造营#

发布于日本