32G Mac部署Qwen 3.5 35B

在 32G 的 Mac 上部署 Qwen 3.5 35B A3B Q4 看起来确实是个非常合理的选择，内存能装下模型和上下文，又因为激活量少所以速度也还可以，掩盖了统一内存速度比不上独显显存的问题。可以和 4080 跑 27B Q3 一样做到 35 token/s。

上下文拉满 262K 再同时打开了 Rider 和 Chrome 这种内存大户之后依然能保持 30 token/s，macOS 的内存 swap 策略看来也是有用的。纯本地跑任务指日可待。

发布于浙江