AIGCLINK
26-06-11 08:54 微博认证:AI博主

谷歌新开源了一款用于本地实时交互场景的模型:DiffusionGemma,256token并行生成,速度快4倍

单张H100 1000+token/秒,RTX 5090 700+ token/秒
总参数26B,推理时激活3.8B

量化后可在18GB显存运行,支持双向注意力和智能自纠错

DiffusionGemma优先考虑的是速度和并行布局生成,整体生成质量上低于Gemma 4

对延迟敏感的交互式本地工作流,比如说实时内联编辑、非线性文本结构生成等比较适用

HF:http://t.cn/AXaPkXf9
指南:http://t.cn/AXa7XKLA

#DiffusionGemma##LLM##谷歌最新模型#

发布于 美国