蚂蚁开源100B扩散语言模型

#蚂蚁开源100B扩散语言模型# 技术报告已上线

当主流大语言模型还在采用自回归架构时，有人已经盯上了扩散架构。

在本次量子位MEET2026智能未来大会上，浙江大学百人计划研究员、博士生导师，蚂蚁集团资深技术专家赵俊博表示：

扩散架构在推理过程中可以直接修改和控制token，而不需要像自回归模型那样重新生成整段内容。

这意味着，相比自回归模型，扩散模型理论上有望实现更快的生成速度以及更低的计算成本。

基于此，他和团队将重点押注于扩散架构，并致力于探索扩散语言模型独有的Scaling Law。

而作为这一探索的关键里程碑，他们近期发布并开源了LLaDA 2.0，率先将扩散语言模型做到千亿体量。

赵俊博坦言，该领域在训练与推理层面仍处早期，但发展势头迅猛，已吸引包括谷歌、字节在内的巨头及一批初创公司积极布局。

编者注：就在MEET2026智能未来大会结束后，赵俊博和团队也发布了全新的技术报告，揭示了千亿体量扩散语言模型背后的关键技术选择。
报告标题：LLaDA2.0: Scaling Up Diffusion Language Models to 100B
报告链接（github）：http://t.cn/AXUvik6f

内容详情[不愧是你]：http://t.cn/AXUvik6V