给大家带来 Qwen3-Next-80B-A3B 新架构的技术解析
说实话这个架构我乍一看立刻想到了——推测性解码,同样都是先用精简架构进行快速生成,然后用复杂但是精度高的架构提升生成质量。但是二者还是有决定性的不同之处的,来给大家捋一捋:
Qwen3-Next 是先用 Gated DeltaNet,这个是线性注意力机制,计算复杂度较低,所以速度非常快,然后将生成内容再输入到 Gated SoftMax Attention 来提升精度。这个架构的优势是,它是并行的,不像推测性解码是串行的(草稿模型先生成,然后再塞给大模型)。所以效率上很不错,虽然与推测性解码并不完全相似,但Qwen3-Next的混合架构确实与分层处理、效率优先、精度补偿的设计理念有相同之处。这可以说是推测性解码思想在模型架构层面的一种创新应用。(我很好奇 Qwen 的研究员是不是真的受到推测性解码启发搞出来的哈哈)
这种设计让模型在保持 80B 总参数的同时只激活 3B 参数,实现了与传统大模型相当的性能,同时获得了 10 倍的推理加速,特别是在处理 32K 以上长上下文时有很大优势。
期待一波这个新架构 Qwen 会不会应用到更大参数量的模型上,比如 Qwen3-Next-320B-A12B 哈哈
#ai生活指南##ai创造营#
发布于 日本
