豆豆DDDDD 26-04-11 15:53

试了下 VS Code Insider 版本,可以把本地的模型开放的 OpanAI 兼容 API 接入 Copilot。试着让 Gemma 4 写了个局域网剪贴板。

M5 上跑的 Gemma 4 26B A4B,纯生成速度有 30-35 token/s,但是 prefill 速度受性能限制,频繁的 agent 任务速度其实一般,上下文越长需要的 PROCESSING PROMPT 时间越久,但理论上讲应该是有缓存手段的,可能我没找到。

拿 4080 也能跑,因为模型比较小,能放更多的部分进显存了。根据上下文占用的取舍,速度也能跑到 30-40 token/s 之间。prefill 是高算力显卡的强项,整体速度也凑合。但电脑还是得拿来打游戏优先的,显存占满了我玩什么。

也试了下 Copilot 接入 Qwen 3.5 35B A3B。就能力来讲,Gemma 4 和 Qwen 3.5 的智力感觉没啥本质差异,更多是风格区别,Gemma 语文好,Qwen 工具强。反正都已经足够吊打各种老模型。

Gemma 4 26B 这个大小要比 Qwen 3.5 35B 方便部署,不会极限占满 32G 内存,我可能会长期运行在 Mac 后台了,时不时拿出来问两句话、做做翻译、跑点简单任务,基本上不占用任何资源,可以有一个免费的长期在线的 AI 助手了。

发布于 浙江