硅谷陈源博士
26-05-16 07:13 微博认证:美国佐治亚理工学院计算机科学博士,NVIDIA(英伟达)主任工程师

何恺明组的最新论文,两个一作是同等贡献,排名先后顺序由投硬币决定[笑cry]。

这篇论文没有用传统GPT预测下一个token的自回归方法,而是用连续扩散语言模型:生成过程和中间结果都在连续的embedding空间里,最后一步才将结果离散化为token。
- 论文:http://t.cn/AXiiVXf0
- 代码:http://t.cn/AXiiTFXq

#人工智能##大语言模型#

发布于 美国