【苹果港大联合团队提出扩散语言模型DiffuCoder，并带来首个“扩散原生”强化学习方案】最近这段时间以来，#扩散语言模型# （DLMs，Diffusion Language Models）愈发受到关注。在 Inception Labs 发布首个商业级 DLM Mercury 之后，#谷歌# 在不久前也发布了他们的 DLM Gemini Diffusion，得益于其独

【苹果港大联合团队提出扩散语言模型DiffuCoder，并带来首个“扩散原生”强化学习方案】

最近这段时间以来，#扩散语言模型# （DLMs，Diffusion Language Models）愈发受到关注。在 Inception Labs 发布首个商业级 DLM Mercury 之后，#谷歌# 在不久前也发布了他们的 DLM Gemini Diffusion，得益于其独特的并行生成机制，扩散模型在代码生成任务上表现出较大的潜力，尤其在提升生成速度和优化代码结构方面，被认为具有独特的优势。

不过，对于广大研究者和开发者而言，扩散模型在语言任务（尤其是代码生成）中的内部工作机制仍有许多未知之处。它们是如何进行全局规划的？其生成过程与自回归模型有何本质不同？又该如何有效地对其进行优化？

近期，一篇由苹果公司与#香港大学# 研究人员合作发表的论文《DiffuCoder: 理解并改进用于代码生成的掩码扩散模型》（DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation）[1]，对这些关键问题进行了系统性的解答。该研究不仅推出了一个 70 亿参数的开源代码扩散模型 DiffuCoder，还深入剖析了扩散模型的解码行为，并提出了一套为其量身定制的高效强化学习框架。

自回归模型通过逐词元、从左到右的线性方式生成文本。这种机制在保证序列连贯性方面表现出色，但对于代码生成这类本质上非线性的任务，存在一定局限。编程过程常涉及在不同代码块之间跳转、预先规划结构、后续补充依赖等操作，这是自回归模型的单向生成模式难以直接模拟的。

戳链接查看详情：http://t.cn/A6D6aPiT