【Diffusion Gemma: 更快的并行大语言模型】
大语言模型的工作原理可以类比打字机,从左到右一个词一个词生成文本。6月10日,Google 发布实验性开源模型 DiffusionGemma,尝试用“扩散”方式生成文字:它先生成一整块随机占位文本,再像图像扩散模型修图一样,反复修改、填充和润色。这样每次前向计算可并行处理256个 token,在专用 GPU 上文本生成速度最高可提升4倍,单张 H100 可超过每秒1000个 token。它的质量仍不如标准 Gemma 4,但延迟低,适合代码填空和快速编辑等场景。
参考文献:DiffusionGemma: 4x faster text generation, Google blog, 2026.6.10
#人工智能##ai创造营##大语言模型#
发布于 重庆
