千问3.6的35B模型非常强,体感上强于gemma4的26b量化,由于gemma4 31b的性能优化没做好所以没法有效测试。
从gemma4和qwen3.6的量化测试来看,当模型权重能装载到GPU里,那么推理的tokens工作就由CPU来完成了,GPU负载较低,CPU的计算密度极大。同时内存消耗较高。
这也就是说GPU,内存,CPU在AI推理时所进行的workload比重是差不多的,那么CPU的性能就决定了在GPU达标以后的推理性能。
所以,这可能给我们一个启示,对于本地推理来说,显存才是王道,架构和GPU算法等技术的影响较小。显卡投资只需要上显存,没必要上先进架构。
一句话,如果你玩本地大模型,选择显卡的指标只有一个,显存。 http://t.cn/AXxiEHy6
发布于 北京
