Qwen3.5新模型发布

【Qwen3.5 122B-A10B来了：122B参数只激活10B，MoE架构正在重写本地AI的上限】

快速阅读： Qwen3.5系列新模型在Qwen Chat上被发现，包括122B-A10B混合专家模型、27B密集模型和35B-A3B模型，全部支持多模态。这批模型在指令跟随、编程能力上有显著提升，硬件门槛又进一步压低。

---

Qwen3.5系列模型在官方Chat界面被用户发现，随即引起广泛讨论。

亮点是那个122B-A10B的MoE模型。表面看122B参数很唬人，但每次推理实际只激活10B参数。这意味着延迟接近一个20B的密集模型，内存占用却是稀疏架构的。有用户已经拿到Q4_K_XL量化版本测试，称其为“目前用过的最强本地模型”，并把一些其他模型从没答对过的编程题一次性答对了。

有意思的是Unsloth报告这个模型对量化格外友好，甚至2-bit和3.5-bit版本在某些基准上超过了4-bit版本，这违反了一般直觉。有观点认为这与Qwen3.5采用的混合线性-二次注意力架构有关——长上下文的KV缓存压力大幅降低，量化损失自然更小。

27B密集模型引发的讨论不亚于122B。有网友注意到Qwen故意选择27B这个尺寸而非26B或28B，与Gemma 3规格直接对齐，这很难说是巧合。有观点认为Alibaba在通过这个选择同时向社区和Google传递一个信号：24GB显存的用户，不需要等Gemma 4了。密集模型在微调和部署上的可预测性也是MoE替代不了的，有微调需求的用户对这个尺寸最为期待。

对于运行门槛，硬件配置的讨论占了相当篇幅。122B的Q4量化约70GB，16GB显存+64GB内存的配置可以跑，但要做好速度和多任务的取舍。有用户在12GB显存+64GB内存的机器上跑出了255 token/s的prompt处理速度，也有人在同等配置下只有14 t/s，差距主要来自llama.cpp参数的设置，`--n-cpu-moe`和`--fit-ctx`这些参数的影响比硬件差距更大。

一个被忽视的细节：MoE架构的推测性解码（speculative decoding）效果历来不理想，连续token不一定激活相同的专家，验证多个token时内存带宽消耗反而增加。不过有信息称Qwen3.5内置了MTP（多步预测）模块作为补偿，具体效果待测试。

有网友提到自己“准备删掉总计500GB+的所有模型，只留这一个”，不知道最后是否真做到了。

---

简评：

122B参数只唤醒10B，这让我想起一个古老的效率命题：真正的高手从不全力出手，而是精准调用恰好够用的那部分能力。稀疏激活不是偷工减料，而是一种克制的美学。更妙的是量化悖论——2-bit居然跑赢4-bit，说明Qwen团队从架构设计那一刻就在为穷人优化。当别家还在堆参数炫富时，阿里选择了“如何让更多人用得起”这个更难的命题。本地AI的终极形态不是最强，而是够强且够轻。那位要删500GB模型的朋友，其断舍离冲动恰恰说明：好产品的最高境界是让用户的选择变简单。

---

reddit.com/r/LocalLLaMA/comments/1rdfhfx/new_qwen35_models_spotted_on_qwen_chat

发布于北京