何恺明组的最新论文,两个一作是同等贡献,排名先后顺序由投硬币决定[笑cry]。
这篇论文没有用传统GPT预测下一个token的自回归方法,而是用连续扩散语言模型:生成过程和中间结果都在连续的embedding空间里,最后一步才将结果离散化为token。
- 论文:http://t.cn/AXiiVXf0
- 代码:http://t.cn/AXiiTFXq
#人工智能##大语言模型#
发布于 美国
何恺明组的最新论文,两个一作是同等贡献,排名先后顺序由投硬币决定[笑cry]。
这篇论文没有用传统GPT预测下一个token的自回归方法,而是用连续扩散语言模型:生成过程和中间结果都在连续的embedding空间里,最后一步才将结果离散化为token。
- 论文:http://t.cn/AXiiVXf0
- 代码:http://t.cn/AXiiTFXq
#人工智能##大语言模型#