好消息：DeepSeek 上 Nature 封面文章了，梁文峰、郭达雅等也是发过Nature的人了。坏消息：还是介绍的DeepSeek R1，不是啥新东西DeepSeek-R1 incentivizes reasoning in LLMS through reinforcement learning 《DeepSeek-R1通过强化学习激励大语言模型的推理能力》，于2025年9月17日在线发表于《自

好消息：DeepSeek 上 Nature 封面文章了，梁文峰、郭达雅等也是发过Nature的人了。
坏消息：还是介绍的DeepSeek R1，不是啥新东西

DeepSeek-R1 incentivizes reasoning in LLMS through reinforcement learning 《DeepSeek-R1通过强化学习激励大语言模型的推理能力》，于2025年9月17日在线发表于《自然》期刊。

封面介绍用了“Self-help”这个词。
大型语言模型（LLMs）在解决问题时通常表现得更好，前提是这些模型能够被训练成在尝试找到解决方案的过程中明确自己所采取的步骤。这种“推理”方式与人类处理复杂问题的方式类似；然而，这对人工智能来说却是一个巨大的挑战——因为需要人工介入来为模型添加相应的标签和注释。在本周的研究报告中，DeepSeek 的研究人员展示了他们是如何训练出一个既能以这种方式进行推理、又能最大限度地减少人工干预的模型的。该模型名为 DeepSeek-R1，是通过强化学习（reinforcement learning）方法进行训练的。

当然这次的Nature论文里细节更多了，论文全文可在这里下载： http://t.cn/AXhSpRSh 比如训练成本，DeepSeek-R1-Zero使用了 64*8 H800 GPUs（即512块H800显卡），训练过程耗时约 198小时。DeepSeek-R1使用了同样的 64*8 H800 GPUs，训练过程耗时约 80小时 (大约4天) 。加上SFT数据集的创建总花费大概30万美元。（好便宜？）

#AI创造营##微博兴趣创作计划##AI生活指南#

发布于山东