高飞 25-02-07 14:30
微博认证:至顶科技创始人 AI博主

#模型时代# 一张图解释DeepSeek R1论文中的技术原理。
之前发过一个DeepSeek的技术讲解,不过有朋友反馈说,深度不够。所以就把刷到这只从公式数学原理讲起的讲座发上来了。
视频原名为:DeepSeek R1 Theory Overview | GRPO + RL + SFT,来自油管频道:Deep Learning with Yacine。

看到原讲座视频下有这样几条留言:
1、阅读了论文,然后看到了你的流程图。这对理解工作流程帮助很大。

2、流程图很亮眼!很容易就能掌握DeepSeek R1技术的全局。

3、从一个外行人的角度解释得非常好。我不是这方面的专家,但对此非常好奇。你做得很好,我很想回去读读这篇论文,也许能理解更多。

但是,虽然深度是有,但就超过我的理解范围了,就像这位网友说的:
4、我的本科学位是计算机工程,但我需要学习什么样的数学才能理解这些数学公式?它们对我来说完全是希腊语。我到底错过了什么?

***
讲座的知识纲要:

一、从基础模型到推理突破
DeepSeek R1的故事始于其基础模型DeepSeek v3。研究团队以此为起点,最终开发出了三个关键版本:DeepSeek R1-0、DeepSeek R1-蒸馏版和DeepSeek R1。这些模型在各项基准测试中展现出与OpenAI的O1模型相当的性能,某些指标甚至更为出色。值得注意的是,这种性能提升主要通过后期训练实现,而非从头开始的预训练,这为资源受限的研究团队提供了一个可行的发展路径。

二、GRPO技术的渊源与创新
DeepSeek R1采用的群体相对策略优化(GRPO)技术并非凭空而来,而是源自团队此前发表的DeepSeekMath论文。该技术最初在数学推理领域取得突破,这促使团队将其扩展到更广泛的推理任务中。这种技术传承展示了DeepSeek团队在推理能力优化方面的持续探索精神。

三、独特的奖励机制设计
在R1项目中,团队采用了基于规则的奖励系统,这是一个重要的创新点。不同于传统方法使用评判模型,他们选择了确定性的规则奖励函数,包括代码编译验证、测试用例通过率、数学问题准确性等多个维度的评估。随后,团队又发展出双轨制奖励机制,在保留确定性奖励的同时,引入奖励模型来处理更复杂的开放性任务。

四、提示词设计与自发推理能力
DeepSeek R1的另一个显著特点是其极其简约的提示词设计。仅通过简单的对话框架和"思考"标签,模型就能展现出强大的推理能力。更令人惊喜的是,随着训练的深入,模型在"思考"标签中的推理过程变得越来越详尽,这种进步是自发形成的,而非预设强制的结果。

五、评判机制的创新应用
在训练过程中,团队创新性地使用了DeepSeek V3作为评判者,这种方法既避免了额外训练专门的评判模型,又能有效筛选异常数据。与此同时,他们还在模型中引入了实用性和安全性两个关键维度,尽管安全性设置会略微影响某些基准测试的性能,但这种权衡被认为是必要的。

六、语言一致性与性能权衡
研究过程中的一个有趣发现是,强制模型保持语言一致性会导致性能轻微下降。这表明模型在允许混合使用多种语言时实际上能达到更好的性能。尽管如此,团队最终选择牺牲一些性能来确保输出的可读性,这反映了实用性考虑。

七、知识蒸馏的突破性发现
在知识蒸馏实验中,研究团队发现大小模型在推理能力培养上存在显著差异。拥有6000亿参数的大模型能够通过强化学习有效激活其推理核心,而小模型在直接应用相同流程时效果不理想。然而,通过知识蒸馏,小模型的性能得到显著提升,这为解决模型规模与计算资源的矛盾提供了新思路。

八、多语言环境下的均衡表现
最终,DeepSeek R1在多语言能力上展现出令人印象深刻的均衡性,无论是在英语、中文,还是在代码生成、数学推理等任务上都保持高水平表现。这种跨语言的一致性表明,模型掌握了真正的、与语言无关的基础推理能力。 http://t.cn/A63gmi9Y

发布于 北京