26-07-02 12:29 微博认证:AI博主

#Easy同学正在独立开发#

7月2日 AI 观察

① Gemma 4 端侧推理冲上 255 tok/s

xenovacom 用 Fable 5 写 agentic kernel,把 Gemma 4 在 WebGPU(M4 Mac)上跑到了 255 tok/s。之前端侧 50-80 tok/s 够用但不流畅,这个速度意味着 30B 级别模型在浏览器里直接跑,不需要 GPU,本地优先 AI 产品从「画饼」变成了「可交付」。

② 开源语音方案成了 OpenAI Realtime API 的平价替代

HF 的 Andi Marafioti 刚发了基于 Gemma 4 31B + Cerebras 的全栈开源语音应用,定位就是 OpenAI Realtime API 的 drop-in 替代。

OpenAI 语音是 $0.06/输入分钟 + $0.24/输出分钟,做语音 agent 产品成本很高。开源方案等于你可以换成自己的推理后端(Cerebras/Groq/本地),省一大笔。

③ GLM 5.2 在 Microsoft Foundry 上跑 Codex

Alvaro Bartolome 演示了 GLM 5.2(开源前沿模型)在 AMD MI300X 上跑 Codex goal 的完整工作流。

Foundry 企业级部署 + AMD 不依赖 NVIDIA,给 solo founder 多了一个模型选择——不被任何单一 API 绑定。 http://t.cn/AXoGZf6A

发布于 法国