皇家山的维特根斯坦 26-04-26 19:49

这周我跑了跑几个模型发现Sonnet 级别的模型,已经开始可以跑在一张 RTX 5090 上了。

我这里实测的是这个月刚发布的 Qwen 3.6-35B-A3B。具体Benchmark我就不说了,有兴趣自己查。可以说是个有标志性的转折点。

这是一个 MoE 架构的模型,35B 总参数,但每次实际激活大约 3B 级别。也就是说,它有比较大的模型容量,但推理时的实际计算成本很低。这正是 MoE 最近重新火起来的根本原因:总容量大,激活成本低,推理速度快。

在我的本地测试里,Qwen 3.6-35B-A3B 配合 NVFP4 权重量化,再加上 FP8 KV Cache,已经可以在一张 5090 上跑起来,而且可以支持 64K context。

速度也不错,vllm在NVFP4 下可以达到 200+ TPS。

这个结果的意义很大。

过去大家谈本地模型,很多时候还停留在“能不能跑”“能不能勉强用”的阶段。我们屯了几十张5090显卡完全用不上,好多一直放仓库积灰。但现在情况变了。Qwen 3.6-35B-A3B 这种模型,在 coding、摘要、结构化分析、轻量 agent、工具调用这些场景里,已经开始接近 Claude Sonnet 这种主力模型的体感。

当然,这里面有一个关键前提:我用的是 NVFP4,不是普通 INT4。

普通 INT4 在复杂任务上会有明显能力损失,最坏情况下可能只能保留原模型 85% 左右的能力。但 NVFP4 的损失小很多。公开数据里,Qwen 系列在 NVFP4 下很多 benchmark 可以保留 98% 到 99% 以上的平均能力。

这几个条件连在一起,说明本地模型已经进入了一个新的阶段:它不再只是云端大模型的便宜替代品,而是可以成为真实系统里的主力推理节点。

再说说最近很流行的的MOE架构,其实也不是新东西。

早在 1991 年,Jacobs、Jordan、Nowlan 和 Hinton 就提出过 Adaptive Mixtures of Local Experts。核心思想很早就有了:不同专家负责不同输入区域,再由 gating network 决定调用哪些专家。

只是当年的算力、数据、训练方法、工程系统都不成熟,所以这个思想没有真正大规模释放出来。

现在情况变了。

大规模预训练、post-training、蒸馏、RL、合成数据、推理框架、量化格式一起成熟之后,MoE 的优势开始真正体现出来。模型可以拥有更大的总容量,但每次只激活很小一部分参数。对于推理来说,这个结构非常有吸引力。

尤其是在 stateless inference 场景下,MoE 非常适合。

所谓 stateless inference,就是单次调用里围绕一个明确任务完成推理。比如写一段代码、总结一篇文章、分析一个错误日志、提取结构化信息、做一次工具调用决策。这类任务主题集中,语义区域稳定,router 不需要频繁跨领域切换,MoE 的 experts 可以比较稳定地发挥作用。

这时候 MoE 的优势非常明显:速度快,成本低,吞吐高,能力还足够强。

MoE 的问题主要出现在长链路、多阶段、跨主题推理里。因为不同 experts 之间的表示并不总是连续的。如果一个任务一会儿做代码架构,一会儿做数学推理,一会儿做产品判断,再回到代码实现,router 会不断切换 experts,长期一致性就可能下降。

但这不影响 MoE 在大量真实业务场景里的价值。

因为绝大多数生产系统里的 LLM 调用,本来就是大量短任务、局部任务、结构化任务、工具节点任务。对于这些场景,Qwen 3.6-35B-A3B 这类模型已经非常强。

所以我觉得 Qwen 3.6-35B-A3B 的意义,不只是一个模型本身。

Sonnet 级别的模型,已经可以被压缩进一张消费级顶级显卡里。

这会改变很多东西。企业内部 agent、私有知识库、低延迟 NLP都不一定非要完全依赖闭源 API。只要工程能力足够,本地模型已经可以承担越来越多的主力工作。

大模型还在平台期慢慢往上磨,但小模型正在快速把主力能力下放到本地。

最终如果这个能力的智能到了手机上,那很多不可想象的事就会发生了。

发布于 加拿大