孤鸿泽 26-04-22 10:58
微博认证:投资内容创作者 科技博主

千问3.6的35B模型非常强,体感上强于gemma4的26b量化,由于gemma4 31b的性能优化没做好所以没法有效测试。

从gemma4和qwen3.6的量化测试来看,当模型权重能装载到GPU里,那么推理的tokens工作就由CPU来完成了,GPU负载较低,CPU的计算密度极大。同时内存消耗较高。

这也就是说GPU,内存,CPU在AI推理时所进行的workload比重是差不多的,那么CPU的性能就决定了在GPU达标以后的推理性能。

所以,这可能给我们一个启示,对于本地推理来说,显存才是王道,架构和GPU算法等技术的影响较小。显卡投资只需要上显存,没必要上先进架构。

一句话,如果你玩本地大模型,选择显卡的指标只有一个,显存。 http://t.cn/AXxiEHy6

发布于 北京