黄健楸
26-06-24 17:04 微博认证:AI博主

百度又出OCR模型了,这回魔改DeepSeekOCR,但声称无限上下文——用了滑动窗口管理上下文(R-SWA:Reference Sliding Window Attention),名称也叫Unlimited-OCR,参数量为3B。

抱抱脸上 spaces/baidu/Unlimited-OCR 可以免费体验。

额外优点是,它输出不只是纯Markdown,可以混HTML,这样能保留一些格式,比如图一表格。

这其实是大模型OCR的优点,复杂表格下,目前我测试最佳的是ChatGPT中选GPT5.5(High)(结果图三)

另外目前它评分上(93.92,OmniDocBenchv1.6),不如PaddleOCR-VL-1.6(96.3)跟MinerU2.5Pro(95.7) #How I AI#

发布于 广东