谷歌新开源了一款用于本地实时交互场景的模型:DiffusionGemma,256token并行生成,速度快4倍
单张H100 1000+token/秒,RTX 5090 700+ token/秒
总参数26B,推理时激活3.8B
量化后可在18GB显存运行,支持双向注意力和智能自纠错
DiffusionGemma优先考虑的是速度和并行布局生成,整体生成质量上低于Gemma 4
对延迟敏感的交互式本地工作流,比如说实时内联编辑、非线性文本结构生成等比较适用
HF:http://t.cn/AXaPkXf9
指南:http://t.cn/AXa7XKLA
#DiffusionGemma##LLM##谷歌最新模型#
发布于 美国
