DeepSeek刚刚发布了OCR-V2! 用LLM替代CLIP, 这思路太野了!
不是这还没过年呢! DeepSeek-OCR-2 来了!这次不是简单升级,而是搞了个大动作:用 LLM 架构直接替掉传统的 CLIP 视觉编码器!
先说下 CLIP 是啥。CLIP 是 OpenAI 搞的一个视觉编码器,通过海量图文对比学习,让模型能把图像"翻译"成语言模型能理解的向量。DeepSeek-OCR V1 就用的 CLIP VIT (300M参数),效果已经很不错了。但问题是,CLIP 天生是为"图文匹配"设计的,不是为"按顺序读文档"设计的——它看图像就像拍照片,一眼看全局,但不会像人一样"从头读到尾"。
DeepSeek-OCR-2 的核心创新叫**视觉因果流 (Visual Causal Flow)**,说白了就是让模型学会"智能阅读"。怎么做到的?用 Qwen2-0.5B 这个小型 LLM 替代 CLIP 做视觉编码——所谓视觉编码,就是把一张图片转换成一串数字序列(token),让语言模型能"看懂"图片内容。
这里引入了一个关键设计:可学习的 "causal flow tokens"(因果流token)。简单理解就是,模型会生成一组"阅读指针",这些指针可以自己学习按什么顺序去关注图像的不同区域。
打个比方:
图像本来是2D的(有横有纵),但语言模型只能处理1D序列(一个字接一个字)。传统做法是把图像暴力展平,从左上角扫到右下角,这样复杂图案空间关系全乱了。
DeepSeek-OCR-2 的做法更聪明:第一层,让视觉token用双向注意力互相"看见",保持2D空间感知(知道谁在谁旁边);第二层,因果流token按语义逻辑重新排序(先看标题、再看正文、表格单独处理)。两层配合,就像先画一张内容地图,再规划最优阅读路线——用1D的阅读顺序,还原出2D的文档结构!
效果呢?Token 效率直接起飞:
- 100个tokens就能超越GOT-OCR2.0的256个tokens
- 不到800个tokens干翻MinerU的7000个tokens
- 单卡A100日处理量达20万页,吞吐2500 tokens/s
最关键的是,总参数量还是3B,保持轻量级!Vision Encoder从CLIP的300M换成Qwen2-0.5B的500M,只多了200M参数,换来的是质的飞跃。
这个思路挺有意思的:既然LLM天生擅长因果推理,为什么不让它来指导视觉理解?用1D序列模型的优势去解决2D图像理解的问题,这波属于是降维打击了。
来点猜测: 这个 DeepEncoder V2 架构会不会是 DeepSeek-V4 【多模态能力】的预演。论文里明确提到要探索"原生多模态"方向——不再是视觉模块和语言模块各干各的,而是从底层就统一。而且这个超高的视觉压缩效率(相同效果下token数少8倍),意味着未来的多模态模型能处理更长的文档、更多的图片,上下文窗口的利用率会大幅提升。V4要是用上这套东西,图文理解能力怕是要再上一个台阶。
#HOW I AI# #DeepSeek开源OCR2新模型#
