#DeepSeek开源DeepSeek-OCR2#,引入了全新的DeepEncoder V2视觉编码器。该架构打破了传统模型按固定顺序(从左上到右下)扫描图像的限制,转而模仿人类视觉的「因果流(Causal Flow)」逻辑。#How I AI#
还记得上一代DeepSeek-OCR吗?那个用视觉方式压缩一切的模型。
这一次,DeepSeek更进一步,对视觉编码器下手了,提出了一种全新的DeepEncoder V2架构,实现了视觉编码从「固定扫描」向「语义推理」的范式转变!
DeepSeek-OCR2不仅能像人类一样按逻辑顺序阅读复杂文档,还在多项基准测试中刷新了SOTA。
当然,按照DeepSeek的惯例,Paper、Code、Model全开源!
DeepSeek-OCR2的核心创新在于通过DeepEncoder V2,赋予了模型因果推理能力(Causal Reasoning)。
这就像是给机器装上了「人类的阅读逻辑」,让AI不再只是死板地从左上到右下扫描图像,而是能根据内容语义灵活调整阅读顺序。
项目地址:
http://t.cn/AXqMoiPb
模型下载:
http://t.cn/AXqMSvPw
论文地址:
http://t.cn/AXqMSvPA
