最近想部署龙虾,但得等我换 M5 才能把 M1 淘汰下来给龙虾用。
不急,先研究研究有没有免费的 token。毕竟龙虾烧起 token 来搞不好比我工资都贵。
4080 16G + DDR5 96G,LM studio 启动。
首选测试 Qwen 3.5 27B:
Q4 量化据称是家用部署最佳选择,但这个家用也是 24G 显存起步,低于 24G 的想都别想,我跑下来 4 token/s。
Q3 量化很尴尬的是模型本体刚好塞满 16G 显存,能跑 35 token/s 以上,但是我上下文放哪呢?放内存就只剩 13 token/s 了,随着实际使用的上下文增长,这个速度还会继续跌。
如果使用最小的 Q3 量化 IQ3_XXS,他甚至会忘记自己叫什么,这个智商很难让人放心。上下文最长也就塞 10k 进去,不到龙虾起步需求的一半。
唉,16G 现在也不能叫大显存了。
小模型 Qwen 3.5 9B:
Q8 量化带上下文 16G 显存充足,速度 60 token/s。
Q6 量化带上下文 12G 显存都能用,在公司电脑 3060 上都能跑 30 token/s。
电子鹦鹉,没意思,用处有限。虽然 token 快但思考模式过于用力,上下文显存空间也是宝贵的,完全浪费。
小稀疏模型 35B A3B:
我就没测。
显然显存放不下,拿 CPU 跑又很蠢,模型能力也没优势。
我看这个就属于小显存自暴自弃玩法。
偏大模型 122B A10B:
我本来把两年前 700 买的内存条二手 2400 卖了的,但卖出去发现全新竟然敢标 4000,又觉得卖亏了,刚好买家的 AMD 不兼容又给我退回来了,乐,我不如插上搞个 96G 跑跑大模型。
我信了网上的鬼话,说这个级别的 MoE 模型量化后能跑到 25 token/s,结果我跑 Q4 量化还不到 4 token/s。
折腾这个的理论上限并不高,不如玩魔改大显存显卡。
但是玩魔改卡意味着又开始陷入新的陷阱了。
最后看一圈觉得还是不如充个 MiniMax API 罢。
