DeepSeek 的视觉论文来了:Thinking with Visual Primitives
用 DeepSeek V4 Pro 分析了一下论文,如下:
多模态大模型(MLLM)在复杂推理中存在"指代鸿沟"(Reference Gap)—— 难以将抽象语言概念精确锚定到图像中的具体位置。
论文提出 "用视觉基元思考"(Thinking with Visual Primitives)框架:将空间标记(边界框和点)作为"思维的最小单元",直接嵌入模型的思维链推理过程中。
两类视觉基元:
- 框(Grounding /
- 点(Pointing /
训练流程(四阶段):
- 专项 SFT:通过程序化渲染生成冷启动数据(12.5万样本),分别训练两个专项模型 —— F_TwG(框基元)和 F_TwP(点基元)。
- 专项 RL:使用 GRPO 算法,设计三种奖励模型 —— 格式 RM、质量 RM(LLM判别)、准确率 RM(任务定制:如计数的指数衰减奖励、迷宫的因果探索进度奖励等)。
- 统一 RFT:用两个专项模型做拒绝采样生成数据,合并训练一个统一模型。
- 在线策略蒸馏(OPD):用反向 KL 散度将两个专家模型的能力蒸馏到单一学生模型中。
关键洞察:
- Token 比像素更重要:通过视觉 token 压缩架构,以更少的图像 token 消耗达到甚至超越前沿模型性能。
- 路径追踪中双向轨迹奖励(前向对齐 + 反向覆盖)至关重要。
- "先训练专家,再合并"的策略有效避免了两种基元之间的模态冲突。
- 局限:需要显式触发词激活;拓扑推理的跨场景泛化能力有限。
链接:github.com/deepseek-ai/Thinking-with-Visual-Primitives/blob/main/Thinking_with_Visual_Primitives.pdf
