karminski-牙医 25-09-10 08:29
微博认证:AI博主

Qwen 好像马上要发一个 Qwen3-Next?

社区数据来看,大概是个Qwen3-Next-80B-A3B。从这种参数规模和激活量来看,应该是用了新技术了。而且据说性能比 Qwen3-32B 的 dense 模型要好。

同时爆料还说32K以上上下文性能也很好,使用了混合注意力机制(Gated DeltaNet + Gated Attention)。具体如何应该过几天就知道了。

模型发布后第一时间给大家带来评测。

#ai生活指南##ai创造营#

发布于 日本