大厂发同学
26-06-16 12:55 微博认证:科技博主

麻了,OCR模型的单图识别,都卷到97毫秒了。今天刷到一条新闻,给我看懵了,百度文心最近推出的PP-OCRv6,不仅刷新了OCR领域的评测纪录,同时也是全球唯一可在浏览器环境运行的高精度OCR模型,综合性能位居全球榜首。有趣的是,上一个纪录保持者就是PP-OCRv5,这不就是自己卷自己吗。

之前都说,任何品牌走到行业前列,要么失去方向,要么懈怠了,但在模型圈,感觉这些都不存在,行业已经卷的没边了。

文心这次还一次性推出了Tiny、Small、Medium三档模型,覆盖50多种语言,从浏览器、嵌入式硬件到服务器全都能跑。其中,最刷新认知的是,1.5MB的Tiny轻量版,在浏览器本地就能运行,单图识别最快仅仅仅需要97毫秒,图片数据还不用上传云端,这意味着,兼顾了速度的同时,又保证了隐私安全。

目前就有不少开发者认为,作为全球唯一能在浏览器环境稳定高精度运行的OCR,刚好补齐了智能体的视觉识别短板。要知道,在专业识别能力上,PP-OCRv6的文本检测、文本识别两项分数双双超越了上一代,整体表现领先GPT-5.5、Gemini-3.1-Pro等行业主流多模态大模型。

一直以来,很多人认为OCR就是提取文字,其实它真正的价值在于,识别排版、识别表格、纠错、倾斜矫正、结构化数据等等。因为只有更好的读懂图片里的文字,AI才能真正自主处理现实各类文档,脱离单纯对话,走向全流程自主作业。换而言之,文心大模型能在行业占有自己的一席之地,离不开PP-OCR的模型能力。所以,未来AI行业的竞争,将聚焦在OCR模型上?

发布于 浙江