百度开源PaddleOCR-VL-1.5

百度难得的良心开源项目PaddleOCR-VL-1.5 。
很多多模态大模型识别不了的，这个都能识别。
要是论实用，还是这个效果好，覆盖了很多场景。

只有0.9B，本地也可以跑。

PaddleOCR-VL-1.5 的核心能力：
参数量仅为 0.9B，PaddleOCR-VL-1.5 在 OmniDocBench v1.5 上达到 94.5% 的准确率，超越了前代 SOTA 模型 PaddleOCR-VL。在表格、公式和文本识别方面均取得显著提升。

通过支持不规则形状定位，引入了一种创新的文档解析方法，可在倾斜和扭曲的文档条件下实现精确的多边形检测。在五类真实场景（扫描、倾斜、扭曲、屏幕拍摄和光照变化）下的评估表明，其性能优于主流开源及闭源模型。

模型新增了文本检测（文本行定位与识别）以及印章识别功能，所有相关指标均在其各自任务中创下新的 SOTA 成绩。

PaddleOCR-VL-1.5 进一步增强了在专业场景和多语言识别方面的能力。对生僻字、古籍文本、多语言表格、下划线和复选框的识别性能得到提升，并将语言覆盖范围扩展至中国藏文和孟加拉语。

模型支持自动跨页表格合并和跨页段落标题识别，有效缓解了长文档解析中的内容碎片化问题。

模型地址：www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.5/summary

发布于江苏