模型性能测试结果对比

做了一天测试在ultra7 270kplus 64G 4800内存 5070ti的资源下
gemma31b 最好每秒6token/s
gemma26b 最好每秒45token/s
qwen3.6 35b 最好每秒77.66token/s
这说明千问这一套MoE模型量化技术比较适配低显存环境。

发布于北京