DeepSeek-OCR-2发布

溜，DeepSeek刚刚把DeepSeek-OCR-2放出来了，最新OCR，主打一个更像人类的视觉编码方式

就是说以前OCR只能“看见字”，DeepSeek-OCR-2核心是把整页当成“视觉因果流”来读，像人眼一样先抓住版面结构，标题、段落、表格、公式、图片等

再顺藤摸瓜把文字扣出来，所以复杂排版、手写、公式、表格一起上也能转成Markdown

它等于把以前先OCR文字再排版还原的两步活，一次性端到端干完

在OmniDocBench v1.5上综合得分91.09%，比上一代提升了3.73%，阅读顺序识别上逻辑性更强

同等视觉token预算下，DeepSeek-OCR 2在文档解析的整体编辑距离优于Gemini-3 Pro

支持将图片/PDF转为Markdown、表格、公式并定位文字

支持动态分辨率，也就是说模型可以灵活处理不同尺寸及分辨率的输入图像，无需手动调整

这对于文档OCR来说比较重要，因为文档图像的尺寸和布局差异很大，模型能自适应处理这些差异，实用性很强

HF：http://t.cn/AXqMSvPw
论文：http://t.cn/AXqMSvPA

#OCR##DeepSeekOCR2##PDF转markdown#

发布于山西