AIGCLINK 26-01-27 15:58
微博认证:AI博主

溜,DeepSeek刚刚把DeepSeek-OCR-2放出来了,最新OCR,主打一个更像人类的视觉编码方式

就是说以前OCR只能“看见字”,DeepSeek-OCR-2核心是把整页当成“视觉因果流”来读,像人眼一样先抓住版面结构,标题、段落、表格、公式、图片等

再顺藤摸瓜把文字扣出来,所以复杂排版、手写、公式、表格一起上也能转成Markdown

它等于把以前先OCR文字再排版还原的两步活,一次性端到端干完

在OmniDocBench v1.5上综合得分91.09%,比上一代提升了3.73%,阅读顺序识别上逻辑性更强

同等视觉token预算下,DeepSeek-OCR 2在文档解析的整体编辑距离优于Gemini-3 Pro

支持将图片/PDF转为Markdown、表格、公式并定位文字

支持动态分辨率,也就是说模型可以灵活处理不同尺寸及分辨率的输入图像,无需手动调整

这对于文档OCR来说比较重要,因为文档图像的尺寸和布局差异很大,模型能自适应处理这些差异,实用性很强

HF:http://t.cn/AXqMSvPw
论文:http://t.cn/AXqMSvPA

#OCR##DeepSeekOCR2##PDF转markdown#

发布于 山西