deepseek多模态论文解析

deepseek多模态的论文发了，讲了什么呢？
我们知道，用语言是很难描述图片的。
左上，右上，这些描述都很模糊，也不知道具体是指哪个坐标。

deepseek这篇论文，借鉴人类看图的模式，构建了一种基于思维链看图的模式。
我们是怎么看图的呢？
你可能用语言说半天，别人也不明白。
我们会在图上做标记，比如你用手在上面一指，别人就知道是哪里了。
另外一种，我们会在图上画一个框，告诉别人这里是我们指的东西。

那么，还有轨迹呢？
就是你画一条线，直线或者曲线，这些就等于你多指几下。

那么，把这些动作，可以抽象成两个元素，点和框。
轨迹线段，也是由点组成的。

那么，大模型就可以针对一个图像，用点和框来思考了，而不是常常用的语言推理。
这就让图像识别模型，有了思考能力。
其实 chatgpt-image-2就是对图片有思考能力的。

现在问题来了，训练数据从哪里来呢？
我们知道，大模型训练，需要很多数据。
这些数据，你用人工构造，是很难的，没有那么多量。
deepseek除了从网上找很多数据外，还找到一个方法，特别有趣。
就是用程序自动生成很多迷宫，大模型能走迷宫，说明它的空间识别能力就提升了。

看图1，它是知道那个举手的那个人的，这就是思考能力。
图2，让它走迷宫，它能知道顺时针，逆时针，9点钟方向，6点钟方向。

那么这个论文的意义还远不止如此。
建立了一套基于图像的思考模式后，就获得了一种通用方法，可以扩大训练。
图像模型会非常懂你的指令，指代会更精确，画图也能更精确。

总之，deepseek这个论文，不光是解决识图这个问题，而且建立了一个统一通用的框架。

论文地址：github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf

发布于江苏