何恺明大语言模型论文

硅谷陈源博士

26-05-16 07:13 微博认证：美国佐治亚理工学院计算机科学博士，NVIDIA（英伟达）主任工程师

何恺明组的最新论文，两个一作是同等贡献，排名先后顺序由投硬币决定[笑cry]。

这篇论文没有用传统GPT预测下一个token的自回归方法，而是用连续扩散语言模型：生成过程和中间结果都在连续的embedding空间里，最后一步才将结果离散化为token。
- 论文：http://t.cn/AXiiVXf0
- 代码：http://t.cn/AXiiTFXq

#人工智能##大语言模型#

发布于美国