今年贺岁档是Qwen3.5!
Qwen3.5-397B-A17B 刚刚发布啦! 397B 总参数, 激活 17B, 走的是高稀疏 MoE 路线, 从模型卡上看在效率和能力之间找到了一个很实用的平衡点。
参数方面: 原生上下文 262K, 可扩展到约 1M; 默认 BF16; 60 层混合堆叠结构, 512 个专家, 每 token 路由 10 个专家 + 1 个共享专家。看来"总量超大, 但每次只叫最合适的人干活" 这种路线应该是国产大模型的共识了.
同样, 这次最大的提升是原生多模态! Qwen3.5 在训练期就把文本和视觉做早融合, 不再是传统的“视觉编码器 + 语言模型”后拼接流水线, 所以在 GUI 理解、视频分析、文档阅读这类跨模态任务上, 连贯性会更好。
训练和系统层面也有不少硬核更新: 门控 DeltaNet + 门控注意力混合机制, 再叠加多 Token 预测; 强化学习侧用了可扩展异步框架和训推分离设计, 官方给到的端到端加速是 3x-5x。
目前跑分上也相当高, Agent 能力很突出, TAU2-Bench 仅低于 GPT5.2 和 Claude 4.5 Opus. 需要提升的地方可能是 代码能力上差距会比 Agent 能力上大一些.
稍后为大家带来编程前端+后端 (没错, 我这几天没水文就是在打磨新的测试), 以及Agent 和长上下文性能测试!
#HOW I AI##Qwen3.5发布啦##阿里千问#
发布于 日本
