Unlimited OCR开源即登顶!
准备下班呢,发现全球榜1️⃣上新
🏆近日,百度正式发布并开源端到端OCR模型Unlimited OCR。模型发布后GitHub Star两天突破7K,位列HuggingFace全球多模态大模型榜单第一!
面对长文档发怵?我干的就是长文档[得意]
📊Unlimited OCR面向长文档解析场景打造,总参数规模3B、推理时激活参数仅约570M。
🔍公开评测结果显示,模型在OmniDocBench v1.6基准测试中取得93.92%综合成绩,刷新端到端OCR最新纪录。
👉百度提出 Reference Sliding Window Attention (R-SWA) 机制,借鉴人类抄录长文档时的工作方式:始终保持对原始文档内容的关注,同时仅保留最近一段生成内容作为“工作记忆”,而不是无限累积全部历史信息。
基于这一设计,模型能够在一次前向推理中连续完成数十页文档解析,同时将解码阶段的 KV Cache 控制在恒定规模,使计算成本和显存占用不随输出长度持续增长。
🔈Unlimited OCR开源地址——
GitHub:
http://t.cn/AXSbAeUt
HuggingFace:
http://t.cn/AXSbAeU5
发布于 北京
