M5跑Gemma 4接入Copilot

试了下 VS Code Insider 版本，可以把本地的模型开放的 OpanAI 兼容 API 接入 Copilot。试着让 Gemma 4 写了个局域网剪贴板。

M5 上跑的 Gemma 4 26B A4B，纯生成速度有 30-35 token/s，但是 prefill 速度受性能限制，频繁的 agent 任务速度其实一般，上下文越长需要的 PROCESSING PROMPT 时间越久，但理论上讲应该是有缓存手段的，可能我没找到。

拿 4080 也能跑，因为模型比较小，能放更多的部分进显存了。根据上下文占用的取舍，速度也能跑到 30-40 token/s 之间。prefill 是高算力显卡的强项，整体速度也凑合。但电脑还是得拿来打游戏优先的，显存占满了我玩什么。

也试了下 Copilot 接入 Qwen 3.5 35B A3B。就能力来讲，Gemma 4 和 Qwen 3.5 的智力感觉没啥本质差异，更多是风格区别，Gemma 语文好，Qwen 工具强。反正都已经足够吊打各种老模型。

Gemma 4 26B 这个大小要比 Qwen 3.5 35B 方便部署，不会极限占满 32G 内存，我可能会长期运行在 Mac 后台了，时不时拿出来问两句话、做做翻译、跑点简单任务，基本上不占用任何资源，可以有一个免费的长期在线的 AI 助手了。

发布于浙江