谷歌开源新模型

谷歌新开源了一款用于本地实时交互场景的模型：DiffusionGemma，256token并行生成，速度快4倍

单张H100 1000+token/秒，RTX 5090 700+ token/秒
总参数26B，推理时激活3.8B

量化后可在18GB显存运行，支持双向注意力和智能自纠错

DiffusionGemma优先考虑的是速度和并行布局生成，整体生成质量上低于Gemma 4

对延迟敏感的交互式本地工作流，比如说实时内联编辑、非线性文本结构生成等比较适用

HF：http://t.cn/AXaPkXf9
指南：http://t.cn/AXa7XKLA

#DiffusionGemma##LLM##谷歌最新模型#

发布于美国