【百度开源全球首个“异形框定位”OCR模型,中国AI开年密集亮剑垂直赛道】
1月29日,百度在OCR(文档解析)领域放出重磅技术成果,正式推出新一代模型PaddleOCR-VL-1.5并宣布全面开源。该模型最大亮点在于全球首次让AI系统具备了“异形框定位”能力,能够精准解析因拍摄角度、折叠、屏幕反光等导致的变形文档,解决了真实场景中长期存在的“字认得对,结构理不清”的痛点。
技术报告显示,这款仅0.9B参数的轻量化模型,在全球权威评测OmniDocBench V1.5中取得综合精度第一,超越包括谷Gemini-3-Pro、深度求索DeepSeek-OCR等国内外同类主流模型。
此次技术突破的核心价值在于极大拓展了机器理解的文档边界。过去,相关技术主要服务于扫描仪生成的规整文件,而现实中大量文档通过手机随手拍摄,存在倾斜、透视、折痕甚至部分残缺。新模型通过创新算法,使AI不仅能读取文字,更能准确还原表格结构、文本段落和逻辑顺序,相当于为机器装上了“理解文档版面”的眼睛。这为金融、政务、法律等领域处理非标准化纸质文件提供了自动化新路径,有望显著降低人工录入与核验成本。
值得关注的是,此次发布正值2026年开年,中国人工智能产业呈现出一轮密集的垂直化技术发布浪潮。短短一个月内,从文心大模型5.0到千问模型的重要更新,再到百度与深度求索在OCR领域几乎同步推出新一代模型,显示出头部厂商的竞争焦点已明显转向对关键产业场景的深耕。业界观察指出,在通用大模型能力逐步接近的背景下,竞争正在向文档理解、代码生成、科学计算等具体能力维度深化,技术实力的较量愈发体现在能否解决真实、复杂、高价值的业务难题上。
PaddleOCR-VL-1.5作为百度基于文心大模型技术体系衍生出的重要垂直模型,其开源策略将进一步降低技术应用门槛。开发者可通过主流开源平台获取模型资源,企业也可通过云服务快速集成。分析认为,随着此类聚焦产业痛点的模型不断涌现并开源,中国AI技术正在加速从实验室走向生产线,推动智能化转型进入以“解决实际问题、创造业务价值”为核心的新阶段。
