就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理DeepSeek-R1的独特推理能力，能成功扩展到多模态推理领域吗？UCLA等机构的研究者发现，虽然目前已经涌现出许多试图复现DeepSeek-R1的研究，然而这些研究大多遭遇了这个难点：很难复现出R1所表现出的回答长度增加和

就在刚刚，我们在未经监督微调的2B模型上，见证了基于DeepSeek-R1-Zero方法的视觉推理

DeepSeek-R1的独特推理能力，能成功扩展到多模态推理领域吗？UCLA等机构的研究者发现，虽然目前已经涌现出许多试图复现DeepSeek-R1的研究，然而这些研究大多遭遇了这个难点：很难复现出R1所表现出的回答长度增加和思考模式。

幸运的是，他们成功了！如同DeepSeek-R1论文所描述的那样，多模态的「啊哈时刻」出现了——模型回答中涌现出了自我反思能力。

他们不仅成为全球首个成功在多模态推理中产生了「啊哈时刻」涌现现象和回答长度增加的团队，而且仅仅使用了一个未经监督微调的2B模型。

博客地址：http://t.cn/A61D6SuG
开源项目：http://t.cn/A61D6Sub