DeepSeek发布新论文研究图像化上下文压缩

#模型时代##DeepSeek新模型为何被夸爆#

DeepSeek今天的新论文《利用图像化上下文压缩，实现长文本的高效记忆与推理》，又在中美AI届集体刷屏了（一个标志是引来Andrej Kaparthy的点评）。某种程度上，这个发布是DeepSeek R1之后最轰动的。

1、先大概介绍一下。DeepSeek提出了一种“光学压缩”的方法：把文字排成图像，让模型先“看整页”，理解整体结构和层次，再从画面里读出内容。如果压得轻一点，画面清晰，记忆就更清楚；压得重一点，模糊但还看得出大意（而不是全损失掉了）。模型不再逐字处理，而是用视觉去“感知文字”，像人看整页报纸那样，一眼抓住全局。这种思路让AI能在模糊中保持理解力，就像人类记忆随时间模糊，但仍能记得大概发生了什么。

2、不知道为啥，这让我想到一个快速记忆法“记忆宫殿”。人脑用这种方式记东西时，会在脑海里建一个熟悉的空间（记忆宫殿），把信息放在不同位置物品（桩子）上。比如要记数字“314159”，门口的三辆车是3，玄关的一根蜡烛是1，客厅的四把椅子是4，书桌上一支笔是1，窗台五颗石子是5，花园的一只九尾狐是9。每个位置都是一个“桩子”，信息被挂在上面。回忆时，只要在脑中走一遍（巡游），所有内容就顺着路径被取回来。

3、说两者有点像，是因为它们都是把线性的内容变成空间结构，让记忆更直观、更节省。但是不同的地方在于，人类的记忆宫殿靠联想和情境，一个画面能带出故事；当然，DeepSeek 的“光学压缩”只是工程化地保存文字的形状和布局。一个是走进去记住，一个是看一眼压缩，区别还是不小的。也许有一天，模型也能在自己的记忆宫殿里走动？

4、然后很巧，我刷到一个前量化投资人Jeffrey Emanuel，算是梁文锋的同行了，对DeepSeek论文的评价，其中有一段话很有信息量，所以我全文都附在下边了，他说：

“据我们所知，Google 可能已经研究出类似的东西，这也许可以解释为什么 Gemini 拥有如此巨大的上下文窗口，并且在 OCR 任务中表现得如此出色和快速。如果他们真的做到了，可能不会公开，因为这会被视为重要的商业机密”

我无法评价Jeffrey Emanuel所说真假，但是DeepSeek之所以在美国AI领域也非常受尊重，关键原因就是开放（真OpenAI）。这个推文底下有用户留言说，谷歌前几天也公布了一个语音产品，也是类似方法，算是一个旁证，有兴趣的同学可以研究一下：research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/

5、以下是Jeffrey Emanuel的分析推文全文：
DeepSeek 刚刚发布了一篇相当令人震惊的新论文。他们只是简单地称其为 DeepSeek OCR，实际上是把重点埋在了标题里。

虽然它是一个非常强大的 OCR 模型，但其目的和方法的影响远远超出了人们对“又一个 OCR 模型”的预期。

传统上，视觉 LLM 的 token 几乎像是事后添加的或“外挂”到 LLM 范式中。而用可识别的像素来表达 1 万个英文单词，在多模态 LLM 中占用的空间远远大于用 token 表达时的空间。

因此，这 1 万个单词可能会变成 1.5 万个 token，或者 3 万到 6 万个“视觉 token”。所以视觉 token 的效率要低得多，实际上只适用于那些无法用文字有效传达的数据。

但这篇论文中的理念颠覆了以往的认知。DeepSeek 找到了使用视觉 token 比文本 token 实现 10 倍更高压缩率的方法！所以理论上，你可以用他们特殊压缩的 1,500 个视觉 token 来存储 10,000 个单词。

如果你想想自己大脑的工作方式，这可能并不像听起来那么出乎意料。毕竟，我知道当我在寻找一本已经读过的书中的某个部分时，我会在脑海中将它视觉化，并且总能记住它在书的哪一侧以及大致在页面的哪个位置，这表明某种视觉记忆表征在发挥作用。

现在，还不清楚这究竟会如何与 LLM 的其他下游认知功能交互；模型能否像使用常规文本 token 一样智能地推理这些压缩的视觉 token？强制让模型进入更偏向视觉的模式，会不会让它的表达能力下降？

但你可以想象，根据具体的权衡，这可能成为一个非常令人兴奋的新方向，可以大幅扩展有效的上下文长度。尤其是当它与 DeepSeek 几周前另一篇关于稀疏注意力的论文结合时。

据我们所知，Google 可能已经研究出类似的东西，这也许可以解释为什么 Gemini 拥有如此巨大的上下文窗口，并且在 OCR 任务中表现得如此出色和快速。如果他们真的做到了，可能不会公开，因为这会被视为重要的商业机密。

但 DeepSeek 的好处在于，他们将整个项目开源并开放了权重，还解释了他们是如何做到的，所以现在每个人都可以尝试和探索。

即使这些技巧让注意力机制更容易丢失信息，能够获得一个拥有 1000 万或 2000 万 token 上下文窗口的前沿 LLM 仍然令人非常兴奋。

你基本上可以将一家公司的所有关键内部文档塞进提示的前导部分，并将其缓存到 OpenAI，然后只需在此基础上添加你的特定查询或提示，就不必使用搜索工具，同时还能保持快速且具成本效益。

或者将整个代码库放入上下文并缓存起来，然后在修改代码时，只需不断追加相当于 git diffs 的内容。

如果你曾经读过关于伟大物理学家汉斯·贝特的故事，你会知道他以记住大量随机的物理事实而闻名（比如整个元素周期表、各种物质的沸点等），这样他就能在思考和计算时毫无中断地进行，而不必停下来查阅参考表。

在工作记忆中拥有大量特定任务的知识非常有用。这似乎是一种非常聪明且有增益的方式，可能将这个记忆库扩展 10 倍甚至更多。

发布于美国