【Deepseek V4的最后一块拼图来了?全新OCR架构超越视觉压缩,让AI在2D世界里推理因果】
1月27日,#DeepSeek# 发布了《DeepSeek-OCR 2:视觉因果流》论文,并同步开源新一代#文档理解模型# 。这是该公司在2026年1月的第三次技术更新:月初完善了R1论文的技术细节,中旬开源了Engram记忆模块,月末又推出OCR 2。如此密集的节奏,也让外界猜测春节前后可能亮相的DeepSeek-V4的轮廓逐渐成型。
在讨论OCR 2的更新前,不妨先回溯去年10月的初代版本。虽然名字里带着“OCR”(光学字符识别,光学字符识别),但DeepSeek开源的初代模型瞄准的不是传统意义上的字符识别,而是想解决大模型长期面临的一个瓶颈:超长上下文带来的算力压力。由于大语言模型的自注意力机制计算复杂度随序列长度呈平方级增长,当上下文从千级令牌扩展到万级,计算量可能暴增百倍。
处理上百页的财报或整本书时,开发者往往陷入两难:要么切片分段输入,牺牲全局连贯性;要么硬扛长序列,付出高昂的计算成本和延迟。DeepSeek 团队选择换了一个思路:既然文本令牌太昂贵了,能否用图像来“打包”同等信息?他们发现,将一页文档渲染为图像后,视觉编码器提取的视觉令牌数量远少于等效文本,但能完整保留文字与版本式结构。
戳链接查看详情:http://t.cn/AXqxFxKK
