千问大模型 25-09-12 01:52
微博认证:千问大模型官方

接着奏乐接着舞!Qwen3-Next来了!

刚刚,我们发布了下一代基础模型架构 Qwen3-Next,并开源了基于该架构的Qwen3-Next-80B-A3B 系列模型,可媲美千问最新旗舰模型 Qwen3-235B-A22B-Instruct-2507。

🌟全新模型结构
1️⃣ 混合架构创新:采用75% Gated DeltaNet 与25%门控注意力的混合结构,实现性能与效率的双重优化。使用注意力输出门控机制,缓解注意力低秩问题;将注意力头维度提升至256,并对前25%维度应用旋转位置编码,增强长文本外推能力。

2️⃣ 极致稀疏MoE:在使用全局负载均衡时,固定激活专家数,增加总专家数量仍能稳定降低训练Loss。兼顾效果与资源利用率,采用高稀疏度MoE架构,配备512个总专家,10个路由专家与1个共享专家。

3️⃣ 训练更稳:使用注意力输出门控机制,消除 Attention Sink 和 Massive Activation。引入 Zero-Centered RMSNorm 并对norm weight施加weight decay,缓解QK-Norm中出现的异常放大;同时初始化时归一化MoE router参数,确保每个专家在训练初期都能被选中。

4️⃣ Multi-Token Prediction内置高效MTP机制,配合优化的多步推理策略,显著提升Speculative Decoding的接受率,大幅加快实际生成速度。

💡实测表现亮眼:
✅ 训练效率飞跃
● 仅预训练 15T tokens,相比 Qwen3-32B,仅用 9.3% GPU资源即实现更优性能,训练成本直降90%。

✅ 推理吞吐飙升
● 32k长文本:吞吐较 Qwen3-32B 提升超 10倍,长序列处理能力全面突破。

✅ 模型性能对标旗舰
● Base模型:多数基准超越 Qwen3-32B-Base。
● Instruct模型:性能可媲美旗舰模型 Qwen3-235B-A22B-Instruct-2507。
● Thinking模型:超越闭源的模型 Gemini-2.5-Flash-Thinking,可接近Qwen3-235B-A22B-Thinking-2507。

未来,我们将持续探索极致性能与资源效率的平衡,推动大模型在更广泛场景中的落地与应用。
#Qwen##通义千问##AI##开源##大模型#

发布于 浙江