奥里奥比利 26-01-27 16:42
微博认证:科技博主

#DeepSeek开源OCR2新模型#
DeepSeek-OCR2的发布,是把OCR视觉语言模型的处理逻辑往人类阅读习惯靠了一大步,看似是小版本升级,实则实现了视觉编码从“机械扫描”到“语义推理”的关键转变,而且在性能、实用性上都有实打实的提升,还保留了易落地的特点。

这款模型最核心的改进,是摒弃了传统OCR模型从左上到右下的固定扫描方式,通过全新的DeepEncoder V2编码器和“视觉因果流”设计,让模型能先全局感知文档内容,再根据语义和逻辑动态调整阅读顺序,就像人看论文、表格时会先看标题、按逻辑读内容,而非逐行扫,这也让它在复杂版式文档的处理上更贴合实际需求。

在效果上,它在OmniDocBench v1.5基准测试中综合得分达91.09%,较前代提升3.73%,阅读顺序的准确性也大幅提高,甚至在相同视觉token预算下,文档解析表现优于Gemini-3 Pro;实际生产中还降低了识别结果的重复率,稳定性更优,同时还控制了视觉token数量和资源开销,没为提升性能增加额外使用成本。

当然它也有小短板,在报纸这类超高文本密度的场景下识别效果稍弱,不过团队也给出了针对性的优化方向。而更有价值的是,这次验证了“LLM作为视觉编码器”的可行性,让这个模型不只是个好用的OCR工具,还为后续打造能统一处理文本、图像、音频的全模态编码器打下了基础,给视觉语言模型的发展提供了新的思路。

整体来看,DeepSeek-OCR2是一次很务实的技术升级,没有炫技式的创新,而是精准解决了传统OCR在实际应用中的核心痛点,不管是当下用于文档处理、为大模型生成高质量训练数据,还是未来的多模态探索,都有实实在在的价值,也让视觉语言模型的落地应用更贴近实际场景。#ai创造营##科技先锋官#

发布于 辽宁