【苹果港大联合团队提出扩散语言模型DiffuCoder,并带来首个“扩散原生”强化学习方案】
最近这段时间以来,#扩散语言模型# (DLMs,Diffusion Language Models)愈发受到关注。在 Inception Labs 发布首个商业级 DLM Mercury 之后,#谷歌# 在不久前也发布了他们的 DLM Gemini Diffusion,得益于其独特的并行生成机制,扩散模型在代码生成任务上表现出较大的潜力,尤其在提升生成速度和优化代码结构方面,被认为具有独特的优势。
不过,对于广大研究者和开发者而言,扩散模型在语言任务(尤其是代码生成)中的内部工作机制仍有许多未知之处。它们是如何进行全局规划的?其生成过程与自回归模型有何本质不同?又该如何有效地对其进行优化?
近期,一篇由苹果公司与#香港大学# 研究人员合作发表的论文《DiffuCoder: 理解并改进用于代码生成的掩码扩散模型》(DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation)[1],对这些关键问题进行了系统性的解答。该研究不仅推出了一个 70 亿参数的开源代码扩散模型 DiffuCoder,还深入剖析了扩散模型的解码行为,并提出了一套为其量身定制的高效强化学习框架。
自回归模型通过逐词元、从左到右的线性方式生成文本。这种机制在保证序列连贯性方面表现出色,但对于代码生成这类本质上非线性的任务,存在一定局限。编程过程常涉及在不同代码块之间跳转、预先规划结构、后续补充依赖等操作,这是自回归模型的单向生成模式难以直接模拟的。
戳链接查看详情:http://t.cn/A6D6aPiT
