【DeepSeek OCR 2发布:开源OCR领域迎来强劲选手】
DeepSeek悄然在Hugging Face上线了DeepSeek-OCR-2(huggingface.co/deepseek-ai/DeepSeek-OCR-2),这款专注于文档识别的开源模型引发了社区热议。
有趣的是,细心的网友发现DeepSeek在论文致谢中感谢了自己,这个小细节让人会心一笑。更有意思的是评测表格里的数据:按照“用A模型公布的分数来评估B/C/D模型”的逻辑,PaddleOCR-VL的表现看起来相当亮眼。
说到OCR工具的实际选择,社区讨论呈现出百花齐放的态势。
Mistral OCR虽然闭源,但在很多用户眼中依然是标杆级存在。它的API响应极快,对图像和图表的处理非常稳定,能够保持文档结构并在输出中包含媒体内容。有用户分享了自己的完整处理流程:Mistral OCR提取文本,Qwen3-VL生成图表语义描述,Devstral清理格式,Kimi-K2做摘要,最后用Qwen3生成向量存入数据库。这套组合拳展示了现代文档处理的精细化程度。
不过也有人指出,ocrarena.ai排行榜上Mistral OCR只参与了不到100场对战,而其他模型都超过1000场,这个样本量差异意味着排名还需要更多数据验证。
PaddleOCR功能强大但配置门槛较高,不少人在搭建流程时就放弃了。Gemini 2.5 Flash作为OCR工具的表现也获得了好评。还有用户力推腾讯的HunyuanOCR,认为它仅用10亿参数就能在各类文档上碾压PaddleOCR,却没被纳入对比列表,颇有些“遗珠之憾”。
关于DeepSeek OCR 2本身,已有开发者搭建了在线演示。初期遇到了重复输出的问题,后来发现是解码参数设置不当,采用官方推荐配置后表现稳定,比第一代可靠很多。也有用户反馈仍存在重复问题,看来实际效果因场景而异。
值得注意的是,这款模型对文档轻微倾斜的处理能力有限,但配套流程中提供了可靠的方向预测模块,能识别90度、180度、270度的旋转。
社区还在猜测:这次OCR模型的发布,是否预示着下个月DeepSeek V4将具备原生多模态能力?就像Mistral把OCR模块整合进主模型那样。这个猜想让人期待。
对于纯文本OCR任务,当前主流模型其实都已经相当成熟,差异主要体现在复杂数学公式的排版处理上。专用OCR模型的优势在于更少“幻觉”,不会凭空编造内容。除非你要处理古旧手写文档,否则近期发布的模型基本都能胜任日常需求。
reddit.com/r/LocalLLaMA/comments/1qo349m/deepseekaideepseekocr2_hugging_face
