爱范儿
26-05-01 11:39 微博认证:爱范儿官方微博

【DeepSeek连夜删掉的新论文,到底说了什么】

昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》,表示「Excited to release」。#DeepSeek#

今天一早,推文删了,GitHub 上的论文也撤了。

但 APPSO 在它消失之前把全文读完了。读完之后觉得,这篇论文被撤可能不是因为内容有问题。恰恰相反,它可能透露了太多了。

前天我们刚实测完 DeepSeek 的识图模式,让它数手指,它思考了一通,自己吐槽「我真的是数晕了」,然后答错了。当时以为是灰测阶段的小问题。

这篇论文告诉我们,数手指数晕这件事,背后藏着一个 GPT、Claude、Gemini 集体没解好的技术瓶颈。

而 DeepSeek 给出的解法,说出来几乎有点可笑的朴素:给 AI 装一根手指。

陈小康在那条推文里写道:

「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」
「传统的思维链停留在语言空间里,但视觉推理需要更多。通过使用点和框作为认知锚点,我们的模型弥合了「引用鸿沟」,模拟了人类「边指边想」的协同机制。」 http://t.cn/AXJG1IiB