来自 Google DeepMind 团队对 Gemini diffusion 的分享:
很高兴和大家分享我们团队最近的成果——Gemini diffusion!我们首次将扩散模型(diffusion)引入到语言模型(LM)领域,大幅提升了性能,生成速度更是飞快!
🚀🚀🚀
Gemini diffusion 在编程能力上尤其强悍。下面这个示例中,模型生成速度高达每秒2000个token,而且这已经包含了分词、预填充、安全过滤等全部额外开销。
使用 Gemini diffusion 写代码,快到仿佛瞬间完成,体验前所未有的顺畅感:
当然,闪电般的速度并不是它唯一的优势。与传统的自回归(autoregressive,AR)模型一次只能依序生成一个token不同,扩散模型能够进行非因果推理(non-causal reasoning),也就是说在生成过程中模型可以提前「想到」后面的答案。
比如这个难题:
> 「请计算:(√(81) \* (2/3))² + (15 - 3)/(2²),先直接给出答案,再详细说明推导过程。」
这种问题对传统的AR模型来说非常困难,因为它们无法在生成答案前进行全局推理;而扩散模型却能提前对结果进行非因果推理,轻松给出正确答案(答案是39)。
就连GPT-4o也失败了:[查看示例](http://t.cn/A6gNddTp)
再来看一个灵感来自于Sebastien Bubeck等人著名的《Sparks of AGI》论文的问题:
> 「在150到250之间共有多少个质数?首先直接给出总数,然后用 \[ ] 括号列出全部质数。」
这个问题的正确答案是18个质数,即使是GPT-4o也再次失手:[查看示例](http://t.cn/A6gNddT0)
想了解更多详情或获取模型访问权限,可以点击这里:
👉 [Gemini diffusion 官方页面](https://deepmind.google/models/gemini-diffusion/)
发布于 美国
