宝玉xp 25-05-21 08:55
微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

来自 Google DeepMind 团队对 Gemini diffusion 的分享:
很高兴和大家分享我们团队最近的成果——Gemini diffusion!我们首次将扩散模型(diffusion)引入到语言模型(LM)领域,大幅提升了性能,生成速度更是飞快!

🚀🚀🚀

Gemini diffusion 在编程能力上尤其强悍。下面这个示例中,模型生成速度高达每秒2000个token,而且这已经包含了分词、预填充、安全过滤等全部额外开销。

使用 Gemini diffusion 写代码,快到仿佛瞬间完成,体验前所未有的顺畅感:

当然,闪电般的速度并不是它唯一的优势。与传统的自回归(autoregressive,AR)模型一次只能依序生成一个token不同,扩散模型能够进行非因果推理(non-causal reasoning),也就是说在生成过程中模型可以提前「想到」后面的答案。

比如这个难题:

> 「请计算:(√(81) \* (2/3))² + (15 - 3)/(2²),先直接给出答案,再详细说明推导过程。」

这种问题对传统的AR模型来说非常困难,因为它们无法在生成答案前进行全局推理;而扩散模型却能提前对结果进行非因果推理,轻松给出正确答案(答案是39)。

就连GPT-4o也失败了:[查看示例](http://t.cn/A6gNddTp)

再来看一个灵感来自于Sebastien Bubeck等人著名的《Sparks of AGI》论文的问题:

> 「在150到250之间共有多少个质数?首先直接给出总数,然后用 \[ ] 括号列出全部质数。」

这个问题的正确答案是18个质数,即使是GPT-4o也再次失手:[查看示例](http://t.cn/A6gNddT0)

想了解更多详情或获取模型访问权限,可以点击这里:

👉 [Gemini diffusion 官方页面](https://deepmind.google/models/gemini-diffusion/)

发布于 美国