【9B打赢了120B,0.8B塞进树莓派,Qwen3.5这次把“小”这个字重新定义了】
快速导读:Qwen3.5发布小尺寸系列,0.8B到9B全线上线,还全部带上了视觉能力。更荒诞的是,9B在多数基准测试上超过了120B。社区里讨论最热的不是旗舰,而是这些“没人以为能用”的小模型,正在悄悄干掉一批你觉得理所当然该用大模型的活。
---
有人把Qwen3.5的0.8B量化版下载下来,528MB,比很多手机App还小。
然后他发现:这个东西支持视觉。
一个528MB的模型,能看图,能跑在树莓派上,能在几百毫秒内返回一个分类结果。社区里有人已经把它接进了智能体路由——十几个MCP工具挂在那儿,它负责在入口判断“这条消息该交给哪个工具处理”,准确率够用,延迟几乎可以忽略。
你大概以为这类任务至少得8B起步。
Qwen3.5 9B在大多数基准测试上超过了120B。不是某个偏门榜单,是普遍性的。有人用35B-A3B(激活参数只有3B)跑代码和工具调用,速度碾压27B,精度差距在实际任务里小得几乎感觉不到。一位用户说,小模型失败了一次工具调用没关系,它能在27B完成第一次调用之前,自我纠正四次。
这件事的逻辑转变比看起来要大。
过去大家用小模型是因为没别的选择——设备限制、成本限制、只能将就。现在这个逻辑开始倒过来:有人主动选择小模型,不是因为大模型用不起,而是因为任务本身不需要那么多。路由、分类、摘要、标题生成、NSFW检测——这些任务送给27B是在浪费,送给0.8B够了,而且快。
有人把Qwen3-0.6B专门跑在后台,负责给OpenWebUI生成对话标题和标签,主模型完全不受打扰。有人用4B接上playwright MCP和搜索接口,控制Home Assistant,响应速度和Alexa差不多。还有人直接把它塞进了网页应用,用WebLLM在浏览器里跑。
上下文效率的变化同样值得注意。同等量化条件下,Qwen3.5 4B占用的VRAM比Qwen3 4B更少,支持的上下文窗口从6k跳到了22k。
有人说:GPT-2当年出来时,20亿参数看起来是个天文数字。现在2B是“小模型”,不是因为模型变笨了,是因为“小”这个词的定义换了一把尺子。
如果你现在每次有分类任务、路由任务、格式化任务,都习惯性地调用云端大模型——这个习惯值得重新想一想。
---
简评:
小模型的讨论,本质上是一场关于“够用”的哲学辩论。我们总是本能地往更大更强的方向走,把“够用”当作退而求其次。但Qwen3.5这次做了一件有趣的事:它把“够用”重新变成了一种主动选择,而不是一种妥协。0.8B不是27B的残次品,它是一个不同的工具,用在对的地方,比大模型更对。这和买了豪华轿车去买菜然后抱怨停车难,其实是同一个问题。
---
ref: reddit.com/r/LocalLLaMA/comments/1rirlau/breaking_the_small_qwen35_models_have_been_dropped
#AI创造营##人工智能#
