爱可可-爱生活 26-02-25 09:19
微博认证:AI博主 2025微博新锐新知博主

【Qwen3.5 122B-A10B来了:122B参数只激活10B,MoE架构正在重写本地AI的上限】

快速阅读: Qwen3.5系列新模型在Qwen Chat上被发现,包括122B-A10B混合专家模型、27B密集模型和35B-A3B模型,全部支持多模态。这批模型在指令跟随、编程能力上有显著提升,硬件门槛又进一步压低。

---

Qwen3.5系列模型在官方Chat界面被用户发现,随即引起广泛讨论。

亮点是那个122B-A10B的MoE模型。表面看122B参数很唬人,但每次推理实际只激活10B参数。这意味着延迟接近一个20B的密集模型,内存占用却是稀疏架构的。有用户已经拿到Q4_K_XL量化版本测试,称其为“目前用过的最强本地模型”,并把一些其他模型从没答对过的编程题一次性答对了。

有意思的是Unsloth报告这个模型对量化格外友好,甚至2-bit和3.5-bit版本在某些基准上超过了4-bit版本,这违反了一般直觉。有观点认为这与Qwen3.5采用的混合线性-二次注意力架构有关——长上下文的KV缓存压力大幅降低,量化损失自然更小。

27B密集模型引发的讨论不亚于122B。有网友注意到Qwen故意选择27B这个尺寸而非26B或28B,与Gemma 3规格直接对齐,这很难说是巧合。有观点认为Alibaba在通过这个选择同时向社区和Google传递一个信号:24GB显存的用户,不需要等Gemma 4了。密集模型在微调和部署上的可预测性也是MoE替代不了的,有微调需求的用户对这个尺寸最为期待。

对于运行门槛,硬件配置的讨论占了相当篇幅。122B的Q4量化约70GB,16GB显存+64GB内存的配置可以跑,但要做好速度和多任务的取舍。有用户在12GB显存+64GB内存的机器上跑出了255 token/s的prompt处理速度,也有人在同等配置下只有14 t/s,差距主要来自llama.cpp参数的设置,`--n-cpu-moe`和`--fit-ctx`这些参数的影响比硬件差距更大。

一个被忽视的细节:MoE架构的推测性解码(speculative decoding)效果历来不理想,连续token不一定激活相同的专家,验证多个token时内存带宽消耗反而增加。不过有信息称Qwen3.5内置了MTP(多步预测)模块作为补偿,具体效果待测试。

有网友提到自己“准备删掉总计500GB+的所有模型,只留这一个”,不知道最后是否真做到了。

---

简评:

122B参数只唤醒10B,这让我想起一个古老的效率命题:真正的高手从不全力出手,而是精准调用恰好够用的那部分能力。稀疏激活不是偷工减料,而是一种克制的美学。更妙的是量化悖论——2-bit居然跑赢4-bit,说明Qwen团队从架构设计那一刻就在为穷人优化。当别家还在堆参数炫富时,阿里选择了“如何让更多人用得起”这个更难的命题。本地AI的终极形态不是最强,而是够强且够轻。那位要删500GB模型的朋友,其断舍离冲动恰恰说明:好产品的最高境界是让用户的选择变简单。

---

reddit.com/r/LocalLLaMA/comments/1rdfhfx/new_qwen35_models_spotted_on_qwen_chat

发布于 北京