接着奏乐接着舞！Qwen3-Next来了！刚刚，我们发布了下一代基础模型架构 Qwen3-Next，并开源了基于该架构的Qwen3-Next-80B-A3B 系列模型，可媲美千问最新旗舰模型 Qwen3-235B-A22B-Instruct-2507。🌟全新模型结构1️⃣ 混合架构创新：采用75% Gated DeltaNet 与25%门控注意力的混合结构，实现性

接着奏乐接着舞！Qwen3-Next来了！

刚刚，我们发布了下一代基础模型架构 Qwen3-Next，并开源了基于该架构的Qwen3-Next-80B-A3B 系列模型，可媲美千问最新旗舰模型 Qwen3-235B-A22B-Instruct-2507。

🌟全新模型结构
1️⃣ 混合架构创新：采用75% Gated DeltaNet 与25%门控注意力的混合结构，实现性能与效率的双重优化。使用注意力输出门控机制，缓解注意力低秩问题；将注意力头维度提升至256，并对前25%维度应用旋转位置编码，增强长文本外推能力。

2️⃣ 极致稀疏MoE：在使用全局负载均衡时，固定激活专家数，增加总专家数量仍能稳定降低训练Loss。兼顾效果与资源利用率，采用高稀疏度MoE架构，配备512个总专家，10个路由专家与1个共享专家。

3️⃣ 训练更稳：使用注意力输出门控机制，消除 Attention Sink 和 Massive Activation。引入 Zero-Centered RMSNorm 并对norm weight施加weight decay，缓解QK-Norm中出现的异常放大；同时初始化时归一化MoE router参数，确保每个专家在训练初期都能被选中。

4️⃣ Multi-Token Prediction内置高效MTP机制，配合优化的多步推理策略，显著提升Speculative Decoding的接受率，大幅加快实际生成速度。

💡实测表现亮眼：
✅ 训练效率飞跃
● 仅预训练 15T tokens，相比 Qwen3-32B，仅用 9.3% GPU资源即实现更优性能，训练成本直降90%。

✅ 推理吞吐飙升
● 32k长文本：吞吐较 Qwen3-32B 提升超 10倍，长序列处理能力全面突破。

✅ 模型性能对标旗舰
● Base模型：多数基准超越 Qwen3-32B-Base。
● Instruct模型：性能可媲美旗舰模型 Qwen3-235B-A22B-Instruct-2507。
● Thinking模型：超越闭源的模型 Gemini-2.5-Flash-Thinking，可接近Qwen3-235B-A22B-Thinking-2507。

未来，我们将持续探索极致性能与资源效率的平衡，推动大模型在更广泛场景中的落地与应用。
#Qwen##通义千问##AI##开源##大模型#

发布于浙江