显存为本地大模型关键指标

千问3.6的35B模型非常强，体感上强于gemma4的26b量化，由于gemma4 31b的性能优化没做好所以没法有效测试。

从gemma4和qwen3.6的量化测试来看，当模型权重能装载到GPU里，那么推理的tokens工作就由CPU来完成了，GPU负载较低，CPU的计算密度极大。同时内存消耗较高。

这也就是说GPU，内存，CPU在AI推理时所进行的workload比重是差不多的，那么CPU的性能就决定了在GPU达标以后的推理性能。

所以，这可能给我们一个启示，对于本地推理来说，显存才是王道，架构和GPU算法等技术的影响较小。显卡投资只需要上显存，没必要上先进架构。

一句话，如果你玩本地大模型，选择显卡的指标只有一个，显存。 http://t.cn/AXxiEHy6

发布于北京