#模型时代# 一张图解释DeepSeek R1论文中的技术原理。之前发过一个DeepSeek的技术讲解，不过有朋友反馈说，深度不够。所以就把刷到这只从公式数学原理讲起的讲座发上来了。视频原名为：DeepSeek R1 Theory Overview | GRPO + RL + SFT，来自油管频道：Deep Learning with Yacine。看到原讲座视频下

#模型时代# 一张图解释DeepSeek R1论文中的技术原理。
之前发过一个DeepSeek的技术讲解，不过有朋友反馈说，深度不够。所以就把刷到这只从公式数学原理讲起的讲座发上来了。
视频原名为：DeepSeek R1 Theory Overview | GRPO + RL + SFT，来自油管频道：Deep Learning with Yacine。

看到原讲座视频下有这样几条留言：
1、阅读了论文，然后看到了你的流程图。这对理解工作流程帮助很大。

2、流程图很亮眼！很容易就能掌握DeepSeek R1技术的全局。

3、从一个外行人的角度解释得非常好。我不是这方面的专家，但对此非常好奇。你做得很好，我很想回去读读这篇论文，也许能理解更多。

但是，虽然深度是有，但就超过我的理解范围了，就像这位网友说的：
4、我的本科学位是计算机工程，但我需要学习什么样的数学才能理解这些数学公式？它们对我来说完全是希腊语。我到底错过了什么？

***
讲座的知识纲要：

一、从基础模型到推理突破
DeepSeek R1的故事始于其基础模型DeepSeek v3。研究团队以此为起点，最终开发出了三个关键版本：DeepSeek R1-0、DeepSeek R1-蒸馏版和DeepSeek R1。这些模型在各项基准测试中展现出与OpenAI的O1模型相当的性能，某些指标甚至更为出色。值得注意的是，这种性能提升主要通过后期训练实现，而非从头开始的预训练，这为资源受限的研究团队提供了一个可行的发展路径。

二、GRPO技术的渊源与创新
DeepSeek R1采用的群体相对策略优化（GRPO）技术并非凭空而来，而是源自团队此前发表的DeepSeekMath论文。该技术最初在数学推理领域取得突破，这促使团队将其扩展到更广泛的推理任务中。这种技术传承展示了DeepSeek团队在推理能力优化方面的持续探索精神。

三、独特的奖励机制设计
在R1项目中，团队采用了基于规则的奖励系统，这是一个重要的创新点。不同于传统方法使用评判模型，他们选择了确定性的规则奖励函数，包括代码编译验证、测试用例通过率、数学问题准确性等多个维度的评估。随后，团队又发展出双轨制奖励机制，在保留确定性奖励的同时，引入奖励模型来处理更复杂的开放性任务。

四、提示词设计与自发推理能力
DeepSeek R1的另一个显著特点是其极其简约的提示词设计。仅通过简单的对话框架和"思考"标签，模型就能展现出强大的推理能力。更令人惊喜的是，随着训练的深入，模型在"思考"标签中的推理过程变得越来越详尽，这种进步是自发形成的，而非预设强制的结果。

五、评判机制的创新应用
在训练过程中，团队创新性地使用了DeepSeek V3作为评判者，这种方法既避免了额外训练专门的评判模型，又能有效筛选异常数据。与此同时，他们还在模型中引入了实用性和安全性两个关键维度，尽管安全性设置会略微影响某些基准测试的性能，但这种权衡被认为是必要的。

六、语言一致性与性能权衡
研究过程中的一个有趣发现是，强制模型保持语言一致性会导致性能轻微下降。这表明模型在允许混合使用多种语言时实际上能达到更好的性能。尽管如此，团队最终选择牺牲一些性能来确保输出的可读性，这反映了实用性考虑。

七、知识蒸馏的突破性发现
在知识蒸馏实验中，研究团队发现大小模型在推理能力培养上存在显著差异。拥有6000亿参数的大模型能够通过强化学习有效激活其推理核心，而小模型在直接应用相同流程时效果不理想。然而，通过知识蒸馏，小模型的性能得到显著提升，这为解决模型规模与计算资源的矛盾提供了新思路。

八、多语言环境下的均衡表现
最终，DeepSeek R1在多语言能力上展现出令人印象深刻的均衡性，无论是在英语、中文，还是在代码生成、数学推理等任务上都保持高水平表现。这种跨语言的一致性表明，模型掌握了真正的、与语言无关的基础推理能力。 http://t.cn/A63gmi9Y

发布于北京