孤鸿泽 26-04-22 23:17
微博认证:投资内容创作者 科技博主

做了一天测试在ultra7 270kplus 64G 4800内存 5070ti的资源下
gemma31b 最好每秒6token/s
gemma26b 最好每秒45token/s
qwen3.6 35b 最好每秒77.66token/s
这说明千问这一套MoE模型量化技术比较适配低显存环境。 ​

发布于 北京