百度又出OCR模型了,这回魔改DeepSeekOCR,但声称无限上下文——用了滑动窗口管理上下文(R-SWA:Reference Sliding Window Attention),名称也叫Unlimited-OCR,参数量为3B。
抱抱脸上 spaces/baidu/Unlimited-OCR 可以免费体验。
额外优点是,它输出不只是纯Markdown,可以混HTML,这样能保留一些格式,比如图一表格。
这其实是大模型OCR的优点,复杂表格下,目前我测试最佳的是ChatGPT中选GPT5.5(High)(结果图三)
另外目前它评分上(93.92,OmniDocBenchv1.6),不如PaddleOCR-VL-1.6(96.3)跟MinerU2.5Pro(95.7) #How I AI#
发布于 广东
