百度文心
26-06-25 18:29 微博认证:百度文心官方微博

Unlimited OCR开源即登顶!
准备下班呢,发现全球榜1️⃣上新

🏆近日,百度正式发布并开源端到端OCR模型Unlimited OCR。模型发布后GitHub Star两天突破7K,位列HuggingFace全球多模态大模型榜单第一!

面对长文档发怵?我干的就是长文档[得意]
📊Unlimited OCR面向长文档解析场景打造,总参数规模3B、推理时激活参数仅约570M。

🔍公开评测结果显示,模型在OmniDocBench v1.6基准测试中取得93.92%综合成绩,刷新端到端OCR最新纪录。

👉百度提出 Reference Sliding Window Attention (R-SWA) 机制,借鉴人类抄录长文档时的工作方式:始终保持对原始文档内容的关注,同时仅保留最近一段生成内容作为“工作记忆”,而不是无限累积全部历史信息。

基于这一设计,模型能够在一次前向推理中连续完成数十页文档解析,同时将解码阶段的 KV Cache 控制在恒定规模,使计算成本和显存占用不随输出长度持续增长。

🔈Unlimited OCR开源地址——
GitHub:
http://t.cn/AXSbAeUt

HuggingFace:
http://t.cn/AXSbAeU5

发布于 北京