Qwen3.5小模型性能超越大模型

【9B打赢了120B，0.8B塞进树莓派，Qwen3.5这次把“小”这个字重新定义了】

快速导读：Qwen3.5发布小尺寸系列，0.8B到9B全线上线，还全部带上了视觉能力。更荒诞的是，9B在多数基准测试上超过了120B。社区里讨论最热的不是旗舰，而是这些“没人以为能用”的小模型，正在悄悄干掉一批你觉得理所当然该用大模型的活。

---

有人把Qwen3.5的0.8B量化版下载下来，528MB，比很多手机App还小。

然后他发现：这个东西支持视觉。

一个528MB的模型，能看图，能跑在树莓派上，能在几百毫秒内返回一个分类结果。社区里有人已经把它接进了智能体路由——十几个MCP工具挂在那儿，它负责在入口判断“这条消息该交给哪个工具处理”，准确率够用，延迟几乎可以忽略。

你大概以为这类任务至少得8B起步。

Qwen3.5 9B在大多数基准测试上超过了120B。不是某个偏门榜单，是普遍性的。有人用35B-A3B（激活参数只有3B）跑代码和工具调用，速度碾压27B，精度差距在实际任务里小得几乎感觉不到。一位用户说，小模型失败了一次工具调用没关系，它能在27B完成第一次调用之前，自我纠正四次。

这件事的逻辑转变比看起来要大。

过去大家用小模型是因为没别的选择——设备限制、成本限制、只能将就。现在这个逻辑开始倒过来：有人主动选择小模型，不是因为大模型用不起，而是因为任务本身不需要那么多。路由、分类、摘要、标题生成、NSFW检测——这些任务送给27B是在浪费，送给0.8B够了，而且快。

有人把Qwen3-0.6B专门跑在后台，负责给OpenWebUI生成对话标题和标签，主模型完全不受打扰。有人用4B接上playwright MCP和搜索接口，控制Home Assistant，响应速度和Alexa差不多。还有人直接把它塞进了网页应用，用WebLLM在浏览器里跑。

上下文效率的变化同样值得注意。同等量化条件下，Qwen3.5 4B占用的VRAM比Qwen3 4B更少，支持的上下文窗口从6k跳到了22k。

有人说：GPT-2当年出来时，20亿参数看起来是个天文数字。现在2B是“小模型”，不是因为模型变笨了，是因为“小”这个词的定义换了一把尺子。

如果你现在每次有分类任务、路由任务、格式化任务，都习惯性地调用云端大模型——这个习惯值得重新想一想。

---

简评：

小模型的讨论，本质上是一场关于“够用”的哲学辩论。我们总是本能地往更大更强的方向走，把“够用”当作退而求其次。但Qwen3.5这次做了一件有趣的事：它把“够用”重新变成了一种主动选择，而不是一种妥协。0.8B不是27B的残次品，它是一个不同的工具，用在对的地方，比大模型更对。这和买了豪华轿车去买菜然后抱怨停车难，其实是同一个问题。

---

ref: reddit.com/r/LocalLLaMA/comments/1rirlau/breaking_the_small_qwen35_models_have_been_dropped

#AI创造营##人工智能#

发布于北京