测试大模型部署性能

最近想部署龙虾，但得等我换 M5 才能把 M1 淘汰下来给龙虾用。
不急，先研究研究有没有免费的 token。毕竟龙虾烧起 token 来搞不好比我工资都贵。

4080 16G + DDR5 96G，LM studio 启动。

首选测试 Qwen 3.5 27B：
Q4 量化据称是家用部署最佳选择，但这个家用也是 24G 显存起步，低于 24G 的想都别想，我跑下来 4 token/s。
Q3 量化很尴尬的是模型本体刚好塞满 16G 显存，能跑 35 token/s 以上，但是我上下文放哪呢？放内存就只剩 13 token/s 了，随着实际使用的上下文增长，这个速度还会继续跌。
如果使用最小的 Q3 量化 IQ3_XXS，他甚至会忘记自己叫什么，这个智商很难让人放心。上下文最长也就塞 10k 进去，不到龙虾起步需求的一半。
唉，16G 现在也不能叫大显存了。

小模型 Qwen 3.5 9B：
Q8 量化带上下文 16G 显存充足，速度 60 token/s。
Q6 量化带上下文 12G 显存都能用，在公司电脑 3060 上都能跑 30 token/s。
电子鹦鹉，没意思，用处有限。虽然 token 快但思考模式过于用力，上下文显存空间也是宝贵的，完全浪费。

小稀疏模型 35B A3B：
我就没测。
显然显存放不下，拿 CPU 跑又很蠢，模型能力也没优势。
我看这个就属于小显存自暴自弃玩法。

偏大模型 122B A10B：
我本来把两年前 700 买的内存条二手 2400 卖了的，但卖出去发现全新竟然敢标 4000，又觉得卖亏了，刚好买家的 AMD 不兼容又给我退回来了，乐，我不如插上搞个 96G 跑跑大模型。
我信了网上的鬼话，说这个级别的 MoE 模型量化后能跑到 25 token/s，结果我跑 Q4 量化还不到 4 token/s。
折腾这个的理论上限并不高，不如玩魔改大显存显卡。

但是玩魔改卡意味着又开始陷入新的陷阱了。
最后看一圈觉得还是不如充个 MiniMax API 罢。

发布于浙江