Qwen 3.6-35B-A3B可在RTX 5090运行

这周我跑了跑几个模型发现Sonnet 级别的模型，已经开始可以跑在一张 RTX 5090 上了。

我这里实测的是这个月刚发布的 Qwen 3.6-35B-A3B。具体Benchmark我就不说了，有兴趣自己查。可以说是个有标志性的转折点。

这是一个 MoE 架构的模型，35B 总参数，但每次实际激活大约 3B 级别。也就是说，它有比较大的模型容量，但推理时的实际计算成本很低。这正是 MoE 最近重新火起来的根本原因：总容量大，激活成本低，推理速度快。

在我的本地测试里，Qwen 3.6-35B-A3B 配合 NVFP4 权重量化，再加上 FP8 KV Cache，已经可以在一张 5090 上跑起来，而且可以支持 64K context。

速度也不错，vllm在NVFP4 下可以达到 200+ TPS。

这个结果的意义很大。

过去大家谈本地模型，很多时候还停留在“能不能跑”“能不能勉强用”的阶段。我们屯了几十张5090显卡完全用不上，好多一直放仓库积灰。但现在情况变了。Qwen 3.6-35B-A3B 这种模型，在 coding、摘要、结构化分析、轻量 agent、工具调用这些场景里，已经开始接近 Claude Sonnet 这种主力模型的体感。

当然，这里面有一个关键前提：我用的是 NVFP4，不是普通 INT4。

普通 INT4 在复杂任务上会有明显能力损失，最坏情况下可能只能保留原模型 85% 左右的能力。但 NVFP4 的损失小很多。公开数据里，Qwen 系列在 NVFP4 下很多 benchmark 可以保留 98% 到 99% 以上的平均能力。

这几个条件连在一起，说明本地模型已经进入了一个新的阶段：它不再只是云端大模型的便宜替代品，而是可以成为真实系统里的主力推理节点。

再说说最近很流行的的MOE架构，其实也不是新东西。

早在 1991 年，Jacobs、Jordan、Nowlan 和 Hinton 就提出过 Adaptive Mixtures of Local Experts。核心思想很早就有了：不同专家负责不同输入区域，再由 gating network 决定调用哪些专家。

只是当年的算力、数据、训练方法、工程系统都不成熟，所以这个思想没有真正大规模释放出来。

现在情况变了。

大规模预训练、post-training、蒸馏、RL、合成数据、推理框架、量化格式一起成熟之后，MoE 的优势开始真正体现出来。模型可以拥有更大的总容量，但每次只激活很小一部分参数。对于推理来说，这个结构非常有吸引力。

尤其是在 stateless inference 场景下，MoE 非常适合。

所谓 stateless inference，就是单次调用里围绕一个明确任务完成推理。比如写一段代码、总结一篇文章、分析一个错误日志、提取结构化信息、做一次工具调用决策。这类任务主题集中，语义区域稳定，router 不需要频繁跨领域切换，MoE 的 experts 可以比较稳定地发挥作用。

这时候 MoE 的优势非常明显：速度快，成本低，吞吐高，能力还足够强。

MoE 的问题主要出现在长链路、多阶段、跨主题推理里。因为不同 experts 之间的表示并不总是连续的。如果一个任务一会儿做代码架构，一会儿做数学推理，一会儿做产品判断，再回到代码实现，router 会不断切换 experts，长期一致性就可能下降。

但这不影响 MoE 在大量真实业务场景里的价值。

因为绝大多数生产系统里的 LLM 调用，本来就是大量短任务、局部任务、结构化任务、工具节点任务。对于这些场景，Qwen 3.6-35B-A3B 这类模型已经非常强。

所以我觉得 Qwen 3.6-35B-A3B 的意义，不只是一个模型本身。

Sonnet 级别的模型，已经可以被压缩进一张消费级顶级显卡里。

这会改变很多东西。企业内部 agent、私有知识库、低延迟 NLP都不一定非要完全依赖闭源 API。只要工程能力足够，本地模型已经可以承担越来越多的主力工作。

大模型还在平台期慢慢往上磨，但小模型正在快速把主力能力下放到本地。

最终如果这个能力的智能到了手机上，那很多不可想象的事就会发生了。

发布于加拿大