【DeepSeek连夜删掉的新论文,到底说了什么】
昨晚 DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于多模态技术的新论文《Thinking with Visual Primitives》,表示「Excited to release」。#DeepSeek#
今天一早,推文删了,GitHub 上的论文也撤了。
但 APPSO 在它消失之前把全文读完了。读完之后觉得,这篇论文被撤可能不是因为内容有问题。恰恰相反,它可能透露了太多了。
前天我们刚实测完 DeepSeek 的识图模式,让它数手指,它思考了一通,自己吐槽「我真的是数晕了」,然后答错了。当时以为是灰测阶段的小问题。
这篇论文告诉我们,数手指数晕这件事,背后藏着一个 GPT、Claude、Gemini 集体没解好的技术瓶颈。
而 DeepSeek 给出的解法,说出来几乎有点可笑的朴素:给 AI 装一根手指。
陈小康在那条推文里写道:
「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the "point-to-reason" synergy humans use.」
「传统的思维链停留在语言空间里,但视觉推理需要更多。通过使用点和框作为认知锚点,我们的模型弥合了「引用鸿沟」,模拟了人类「边指边想」的协同机制。」 http://t.cn/AXJG1IiB
