#模型时代##DeepSeek新模型为何被夸爆#
DeepSeek今天的新论文《利用图像化上下文压缩,实现长文本的高效记忆与推理》,又在中美AI届集体刷屏了(一个标志是引来Andrej Kaparthy的点评)。某种程度上,这个发布是DeepSeek R1之后最轰动的。
1、先大概介绍一下。DeepSeek提出了一种“光学压缩”的方法:把文字排成图像,让模型先“看整页”,理解整体结构和层次,再从画面里读出内容。如果压得轻一点,画面清晰,记忆就更清楚;压得重一点,模糊但还看得出大意(而不是全损失掉了)。模型不再逐字处理,而是用视觉去“感知文字”,像人看整页报纸那样,一眼抓住全局。这种思路让AI能在模糊中保持理解力,就像人类记忆随时间模糊,但仍能记得大概发生了什么。
2、不知道为啥,这让我想到一个快速记忆法“记忆宫殿”。人脑用这种方式记东西时,会在脑海里建一个熟悉的空间(记忆宫殿),把信息放在不同位置物品(桩子)上。比如要记数字“314159”,门口的三辆车是3,玄关的一根蜡烛是1,客厅的四把椅子是4,书桌上一支笔是1,窗台五颗石子是5,花园的一只九尾狐是9。每个位置都是一个“桩子”,信息被挂在上面。回忆时,只要在脑中走一遍(巡游),所有内容就顺着路径被取回来。
3、说两者有点像,是因为它们都是把线性的内容变成空间结构,让记忆更直观、更节省。但是不同的地方在于,人类的记忆宫殿靠联想和情境,一个画面能带出故事;当然,DeepSeek 的“光学压缩”只是工程化地保存文字的形状和布局。一个是走进去记住,一个是看一眼压缩,区别还是不小的。也许有一天,模型也能在自己的记忆宫殿里走动?
4、然后很巧,我刷到一个前量化投资人Jeffrey Emanuel,算是梁文锋的同行了,对DeepSeek论文的评价,其中有一段话很有信息量,所以我全文都附在下边了,他说:
“据我们所知,Google 可能已经研究出类似的东西,这也许可以解释为什么 Gemini 拥有如此巨大的上下文窗口,并且在 OCR 任务中表现得如此出色和快速。如果他们真的做到了,可能不会公开,因为这会被视为重要的商业机密”
我无法评价Jeffrey Emanuel所说真假,但是DeepSeek之所以在美国AI领域也非常受尊重,关键原因就是开放(真OpenAI)。这个推文底下有用户留言说,谷歌前几天也公布了一个语音产品,也是类似方法,算是一个旁证,有兴趣的同学可以研究一下:research.google/blog/speech-to-retrieval-s2r-a-new-approach-to-voice-search/
5、以下是Jeffrey Emanuel的分析推文全文:
DeepSeek 刚刚发布了一篇相当令人震惊的新论文。他们只是简单地称其为 DeepSeek OCR,实际上是把重点埋在了标题里。
虽然它是一个非常强大的 OCR 模型,但其目的和方法的影响远远超出了人们对“又一个 OCR 模型”的预期。
传统上,视觉 LLM 的 token 几乎像是事后添加的或“外挂”到 LLM 范式中。而用可识别的像素来表达 1 万个英文单词,在多模态 LLM 中占用的空间远远大于用 token 表达时的空间。
因此,这 1 万个单词可能会变成 1.5 万个 token,或者 3 万到 6 万个“视觉 token”。所以视觉 token 的效率要低得多,实际上只适用于那些无法用文字有效传达的数据。
但这篇论文中的理念颠覆了以往的认知。DeepSeek 找到了使用视觉 token 比文本 token 实现 10 倍更高压缩率的方法!所以理论上,你可以用他们特殊压缩的 1,500 个视觉 token 来存储 10,000 个单词。
如果你想想自己大脑的工作方式,这可能并不像听起来那么出乎意料。毕竟,我知道当我在寻找一本已经读过的书中的某个部分时,我会在脑海中将它视觉化,并且总能记住它在书的哪一侧以及大致在页面的哪个位置,这表明某种视觉记忆表征在发挥作用。
现在,还不清楚这究竟会如何与 LLM 的其他下游认知功能交互;模型能否像使用常规文本 token 一样智能地推理这些压缩的视觉 token?强制让模型进入更偏向视觉的模式,会不会让它的表达能力下降?
但你可以想象,根据具体的权衡,这可能成为一个非常令人兴奋的新方向,可以大幅扩展有效的上下文长度。尤其是当它与 DeepSeek 几周前另一篇关于稀疏注意力的论文结合时。
据我们所知,Google 可能已经研究出类似的东西,这也许可以解释为什么 Gemini 拥有如此巨大的上下文窗口,并且在 OCR 任务中表现得如此出色和快速。如果他们真的做到了,可能不会公开,因为这会被视为重要的商业机密。
但 DeepSeek 的好处在于,他们将整个项目开源并开放了权重,还解释了他们是如何做到的,所以现在每个人都可以尝试和探索。
即使这些技巧让注意力机制更容易丢失信息,能够获得一个拥有 1000 万或 2000 万 token 上下文窗口的前沿 LLM 仍然令人非常兴奋。
你基本上可以将一家公司的所有关键内部文档塞进提示的前导部分,并将其缓存到 OpenAI,然后只需在此基础上添加你的特定查询或提示,就不必使用搜索工具,同时还能保持快速且具成本效益。
或者将整个代码库放入上下文并缓存起来,然后在修改代码时,只需不断追加相当于 git diffs 的内容。
如果你曾经读过关于伟大物理学家汉斯·贝特的故事,你会知道他以记住大量随机的物理事实而闻名(比如整个元素周期表、各种物质的沸点等),这样他就能在思考和计算时毫无中断地进行,而不必停下来查阅参考表。
在工作记忆中拥有大量特定任务的知识非常有用。这似乎是一种非常聪明且有增益的方式,可能将这个记忆库扩展 10 倍甚至更多。
