新智元 26-01-27 16:08
微博认证:新智元官方微博

#DeepSeek开源DeepSeek-OCR2#,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。#How I AI#

还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。

这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!

DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。

当然,按照DeepSeek的惯例,Paper、Code、Model全开源!

DeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。

这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。

项目地址:

http://t.cn/AXqMoiPb

模型下载:

http://t.cn/AXqMSvPw

论文地址:

http://t.cn/AXqMSvPA