DeepSeek多模态技术报告,详细解读!
果然是放假之前必作妖,说好的中国人不卷中国人呢?
《Thinking with Visual Primitives》,提出了一个全新的推理框架,把空间标记(bounding box 与 point)内嵌进思维链,作为语言与图像之间的精确指针,让模型做到一边指点一边推理。
思路很正,就像人在走迷宫,或者清点密集物体时,会自然地用手指比划来降低认知负荷、保持逻辑上的一致性。
你会发现,DeepSeek在做多模态视觉这一块,真的高立意,没看过DeepSeek-OCR、DeepSeek-OCR2的朋友,可以去看一下。
而这一切都是为了解决Reference Gap(指代鸿沟)的问题,因为在复杂的视觉推理中,卡住模型的往往是不知道在在推理过程中到底指的是图里的哪一个东西。
比如让数一堆人、找某条曲线的终点、判断迷宫能不能走通,可能一开始看得没问题,但推理到后面就容易把对象搞混、漏掉、重复数,或者在空间关系上绕晕。
但是,其实我昨天在测试过程中,发现在复杂的空间逻辑推理上,回答的并不好,不知道怎么回事儿?
好了,接下来我们说论文细节。
PS:论文的Github已经删除,不知道为什么。。。
#DeepSeek公布多模态模型技术报告##deepseek##how i ai##DeepSeek多模态开启灰测#
发布于 江苏
