西里森森 26-02-17 22:22
微博认证:AI博主

强烈推荐大家关注一下Qwen3.5这次架构升级!

昨天,Qwen3.5-397B-A17B直接开源了权重。

一个397B参数的旗舰模型,实际跑起来只激活17B参数,但能力居然可以直接对标参数量超 1T 的 Qwen3-Max?

但比起这个技术细节,更值得关注的是这次更新背后折射出的行业趋势:
AI正在从追求极致性能,转向追求性能与可用性的平衡。

过去几年,大模型领域一直在追求更大的参数量、更强的能力。
但这条路走到今天,遇到了一个绕不过去的矛盾:旗舰模型虽然强大,却很难真正走进大多数开发者的工作流里。

背后的痛点在于:我们既需要AI足够聪明,又需要它足够实用。
这不是靠简单压缩模型能解决的,毕竟你把一个大模型粗暴地砍掉参数,性能往往会断崖式下跌。

Qwen3.5这次做的事情,本质上是在探索另一条路:不是让大模型变小,而是让旗舰能力变得更轻。

这次更新的核心是三个方向的同时升级:原生多模态、混合稀疏激活、长上下文效率。
我们拆开来看,背后的思路其实指向了AI应用的几个关键转折点。

1️⃣先说原生多模态。
Qwen3.5这次把文本和视觉在训练阶段就融合了,模型从学习的第一天起,就是用统一的方式理解图和文字。

这种做法的价值,在复杂任务中会特别明显。

比如你要让AI分析一段操作视频,传统方案需要先识别画面,再理解动作序列,再生成文字描述,最后整合成报告。
每个环节都是独立模块,串起来难免有信息损耗。

现在的方案是,AI会直接端到端完成整个任务,从看视频到输出分析,中间不用反复转换表征格式。
推理链条更连贯,出错的概率也低。

更关键的是,这种端到端的能力让AI开始真正能做事,而不只是会看图。
GUI理解、视频分析、多步视觉推理,这些以前需要拼接多个模型才能完成的任务,现在单模型就能闭环处理。

2️⃣ 混合稀疏激活解决的是另一个问题。
397B 总参数,但单次推理只激活 17B,这主要得益于更高稀疏度的 MoE 按需调用专家模块。

而整体性能的大幅提升,则是 Next 混合架构三项关键设计共同作用的结果:更高稀疏度的 MoE、门控 DeltaNet 与门控注意力混合机制(兼顾长序列处理速度与推理质量)、多 token 预测(单次前向推理预测多个 token,显著提升生成效率)。

这个设计直击旗舰模型最大的痛点:能力强但用不起。

以前你想用旗舰级别的能力,要么烧钱调用 API,要么自己部署但硬件成本让人望而却步。
现在用稀疏激活,能力保持旗舰水平,但算力需求大幅下降。

更直观的数据是:在 32k 上下文长度下,Qwen3.5 的吞吐量是 Qwen3-Max 的 8.6 倍。
同样处理一份长文档,以前可能要等几分钟,现在十几秒就能出结果。

而且这种设计还有一个隐藏的好处:它让模型在不同任务间切换时更高效。简单任务调用少量专家,复杂任务调用更多专家,资源分配更灵活。

3️⃣ 还有一点,长上下文这件事经常被低估。
因为在真实工作场景里,很少有任务能在几百字内解决。

多文档问答、长篇合同审查、代码仓库理解、视频内容分析,这些都需要处理几万甚至几十万token的上下文。
传统密集模型在长序列下速度直线下降,显存也撑不住。

Qwen3.5用了门控DeltaNet和门控注意力的混合机制,专门针对长序列优化。
它还支持多token预测,单次前向推理就能预测多个token,生成效率成倍提升。

这不是简单的速度提升,而是让一类以前做不了的任务变得可行。

比如以前你让AI分析一个小时的会议视频,光处理就得等半天,还可能因为上下文太长直接卡死。
现在不仅跑得动,还能保持推理质量,这是跑得快和跑得准的平衡点。

那么,这次更新指向的是什么?

第一,端到端多模态任务闭环开始成为可能。
以前做GUI自动化或视频分析,得拼接好几个模型,每个环节都是独立维护的。
这种架构的问题不仅在于工程复杂度高,更在于稳定性差,任何一个模块出问题,整个链路就断了。

现在单模型就能从理解到执行全链路完成,减少了无数个可能出错的环节。

第二,智能体开发的门槛正在实质性降低。
稀疏激活让旗舰能力不再是少数大厂的专属,中小团队也能用得起、跑得动。

更关键的是,模型开源了权重,开发者可以直接部署、微调、二次开发,不用受限于API调用。
这意味着更多开发者能在旗舰能力的基础上做深度定制,整个开源生态会有一波新的应用爆发。

第三,工具调用和技能组合的生态开始成型。
Qwen3.5支持在复杂任务中进行多轮规划和工具调用。

你可以让AI先搜索相关资料,再调用代码解释器分析数据,最后生成结构化报告。 整个流程是模型自主规划和执行的,不需要人工干预每一步。
这和Skills/Toolchain的趋势是匹配的,意味着可复用智能体工作流开始有了实现基础。

更值得关注的,是AI行业正在发生的一次底层逻辑重构。
而Qwen3.5这次的架构升级,恰好踩在了这个转折点上。它证明了一件事:通过聪明的设计,旗舰能力可以更轻、更快、更省资源。

而这种轻量化不是性能的妥协,而是可用性的跃升。

未来的AI可能不是一个超级大脑,而是无数个分布式的智能节点。有些在云端处理复杂任务,有些在设备端实时响应,有些在边缘计算协同工作。

而这种形态要真正成为现实,前提是旗舰能力能够轻量化部署。
Qwen3.5在2026开年开了个好头。

发布于 山东