新智元
25-03-05 14:14 微博认证:新智元官方微博

就在刚刚,我们在未经监督微调的2B模型上,见证了基于DeepSeek-R1-Zero方法的视觉推理

DeepSeek-R1的独特推理能力,能成功扩展到多模态推理领域吗?UCLA等机构的研究者发现,虽然目前已经涌现出许多试图复现DeepSeek-R1的研究,然而这些研究大多遭遇了这个难点:很难复现出R1所表现出的回答长度增加和思考模式。

幸运的是,他们成功了!如同DeepSeek-R1论文所描述的那样,多模态的「啊哈时刻」出现了——模型回答中涌现出了自我反思能力。

他们不仅成为全球首个成功在多模态推理中产生了「啊哈时刻」涌现现象和回答长度增加的团队,而且仅仅使用了一个未经监督微调的2B模型。

博客地址:http://t.cn/A61D6SuG
开源项目:http://t.cn/A61D6Sub