溜,DeepSeek刚刚把DeepSeek-OCR-2放出来了,最新OCR,主打一个更像人类的视觉编码方式
就是说以前OCR只能“看见字”,DeepSeek-OCR-2核心是把整页当成“视觉因果流”来读,像人眼一样先抓住版面结构,标题、段落、表格、公式、图片等
再顺藤摸瓜把文字扣出来,所以复杂排版、手写、公式、表格一起上也能转成Markdown
它等于把以前先OCR文字再排版还原的两步活,一次性端到端干完
在OmniDocBench v1.5上综合得分91.09%,比上一代提升了3.73%,阅读顺序识别上逻辑性更强
同等视觉token预算下,DeepSeek-OCR 2在文档解析的整体编辑距离优于Gemini-3 Pro
支持将图片/PDF转为Markdown、表格、公式并定位文字
支持动态分辨率,也就是说模型可以灵活处理不同尺寸及分辨率的输入图像,无需手动调整
这对于文档OCR来说比较重要,因为文档图像的尺寸和布局差异很大,模型能自适应处理这些差异,实用性很强
HF:http://t.cn/AXqMSvPw
论文:http://t.cn/AXqMSvPA
#OCR##DeepSeekOCR2##PDF转markdown#
发布于 山西
