挨踢牛魔王 26-02-03 10:39
微博认证:科技博主

百度难得的良心开源项目PaddleOCR-VL-1.5 。
很多多模态大模型识别不了的,这个都能识别。
要是论实用,还是这个效果好,覆盖了很多场景。

只有0.9B,本地也可以跑。

PaddleOCR-VL-1.5 的核心能力:
参数量仅为 0.9B,PaddleOCR-VL-1.5 在 OmniDocBench v1.5 上达到 94.5% 的准确率,超越了前代 SOTA 模型 PaddleOCR-VL。在表格、公式和文本识别方面均取得显著提升。

通过支持不规则形状定位,引入了一种创新的文档解析方法,可在倾斜和扭曲的文档条件下实现精确的多边形检测。在五类真实场景(扫描、倾斜、扭曲、屏幕拍摄和光照变化)下的评估表明,其性能优于主流开源及闭源模型。

模型新增了文本检测(文本行定位与识别)以及印章识别功能,所有相关指标均在其各自任务中创下新的 SOTA 成绩。

PaddleOCR-VL-1.5 进一步增强了在专业场景和多语言识别方面的能力。对生僻字、古籍文本、多语言表格、下划线和复选框的识别性能得到提升,并将语言覆盖范围扩展至中国藏文和孟加拉语。

模型支持自动跨页表格合并和跨页段落标题识别,有效缓解了长文档解析中的内容碎片化问题。

模型地址:www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.5/summary

发布于 江苏