Easy:端侧255|easy|gemma 4|openai|glm 5.2|cerebras

#Easy同学正在独立开发#

7月2日 AI 观察

① Gemma 4 端侧推理冲上 255 tok/s

xenovacom 用 Fable 5 写 agentic kernel，把 Gemma 4 在 WebGPU（M4 Mac）上跑到了 255 tok/s。之前端侧 50-80 tok/s 够用但不流畅，这个速度意味着 30B 级别模型在浏览器里直接跑，不需要 GPU，本地优先 AI 产品从「画饼」变成了「可交付」。

② 开源语音方案成了 OpenAI Realtime API 的平价替代

HF 的 Andi Marafioti 刚发了基于 Gemma 4 31B + Cerebras 的全栈开源语音应用，定位就是 OpenAI Realtime API 的 drop-in 替代。

OpenAI 语音是 $0.06/输入分钟 + $0.24/输出分钟，做语音 agent 产品成本很高。开源方案等于你可以换成自己的推理后端（Cerebras/Groq/本地），省一大笔。

③ GLM 5.2 在 Microsoft Foundry 上跑 Codex

Alvaro Bartolome 演示了 GLM 5.2（开源前沿模型）在 AMD MI300X 上跑 Codex goal 的完整工作流。

Foundry 企业级部署 + AMD 不依赖 NVIDIA，给 solo founder 多了一个模型选择——不被任何单一 API 绑定。 http://t.cn/AXoGZf6A

发布于法国