百度开源异形框定位OCR模型

【百度开源全球首个“异形框定位”OCR模型，中国AI开年密集亮剑垂直赛道】

1月29日，百度在OCR（文档解析）领域放出重磅技术成果，正式推出新一代模型PaddleOCR-VL-1.5并宣布全面开源。该模型最大亮点在于全球首次让AI系统具备了“异形框定位”能力，能够精准解析因拍摄角度、折叠、屏幕反光等导致的变形文档，解决了真实场景中长期存在的“字认得对，结构理不清”的痛点。

技术报告显示，这款仅0.9B参数的轻量化模型，在全球权威评测OmniDocBench V1.5中取得综合精度第一，超越包括谷Gemini-3-Pro、深度求索DeepSeek-OCR等国内外同类主流模型。

此次技术突破的核心价值在于极大拓展了机器理解的文档边界。过去，相关技术主要服务于扫描仪生成的规整文件，而现实中大量文档通过手机随手拍摄，存在倾斜、透视、折痕甚至部分残缺。新模型通过创新算法，使AI不仅能读取文字，更能准确还原表格结构、文本段落和逻辑顺序，相当于为机器装上了“理解文档版面”的眼睛。这为金融、政务、法律等领域处理非标准化纸质文件提供了自动化新路径，有望显著降低人工录入与核验成本。

值得关注的是，此次发布正值2026年开年，中国人工智能产业呈现出一轮密集的垂直化技术发布浪潮。短短一个月内，从文心大模型5.0到千问模型的重要更新，再到百度与深度求索在OCR领域几乎同步推出新一代模型，显示出头部厂商的竞争焦点已明显转向对关键产业场景的深耕。业界观察指出，在通用大模型能力逐步接近的背景下，竞争正在向文档理解、代码生成、科学计算等具体能力维度深化，技术实力的较量愈发体现在能否解决真实、复杂、高价值的业务难题上。

PaddleOCR-VL-1.5作为百度基于文心大模型技术体系衍生出的重要垂直模型，其开源策略将进一步降低技术应用门槛。开发者可通过主流开源平台获取模型资源，企业也可通过云服务快速集成。分析认为，随着此类聚焦产业痛点的模型不断涌现并开源，中国AI技术正在加速从实验室走向生产线，推动智能化转型进入以“解决实际问题、创造业务价值”为核心的新阶段。

发布于上海