挨踢牛魔王
26-05-01 07:22 微博认证:科技博主

deepseek多模态的论文发了,讲了什么呢?
我们知道,用语言是很难描述图片的。
左上,右上,这些描述都很模糊,也不知道具体是指哪个坐标。

deepseek这篇论文,借鉴人类看图的模式,构建了一种基于思维链看图的模式。
我们是怎么看图的呢?
你可能用语言说半天,别人也不明白。
我们会在图上做标记,比如你用手在上面一指,别人就知道是哪里了。
另外一种,我们会在图上画一个框,告诉别人这里是我们指的东西。

那么,还有轨迹呢?
就是你画一条线,直线或者曲线,这些就等于你多指几下。

那么,把这些动作,可以抽象成两个元素,点和框。
轨迹线段,也是由点组成的。

那么,大模型就可以针对一个图像,用点和框来思考了,而不是常常用的语言推理。
这就让图像识别模型,有了思考能力。
其实 chatgpt-image-2就是对图片有思考能力的。

现在问题来了,训练数据从哪里来呢?
我们知道,大模型训练,需要很多数据。
这些数据,你用人工构造,是很难的,没有那么多量。
deepseek除了从网上找很多数据外,还找到一个方法,特别有趣。
就是用程序自动生成很多迷宫,大模型能走迷宫,说明它的空间识别能力就提升了。

看图1,它是知道那个举手的那个人的,这就是思考能力。
图2,让它走迷宫,它能知道顺时针,逆时针,9点钟方向,6点钟方向。

那么这个论文的意义还远不止如此。
建立了一套基于图像的思考模式后,就获得了一种通用方法,可以扩大训练。
图像模型会非常懂你的指令,指代会更精确,画图也能更精确。

总之,deepseek这个论文,不光是解决识图这个问题,而且建立了一个统一通用的框架。

论文地址:github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

发布于 江苏