在 32G 的 Mac 上部署 Qwen 3.5 35B A3B Q4 看起来确实是个非常合理的选择,内存能装下模型和上下文,又因为激活量少所以速度也还可以,掩盖了统一内存速度比不上独显显存的问题。可以和 4080 跑 27B Q3 一样做到 35 token/s。
上下文拉满 262K 再同时打开了 Rider 和 Chrome 这种内存大户之后依然能保持 30 token/s,macOS 的内存 swap 策略看来也是有用的。纯本地跑任务指日可待。
发布于 浙江
