CoVT框架提升多模态模型视觉推理

[CV]《Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens》Y Qin, B Wei, J Ge, K Kallidromitis... [UC Berkeley & UCLA] (2025)

本文介绍了Chain-of-Visual-Thought（CoVT）框架，开创性地让视觉-语言模型（VLMs）不仅在语言空间推理，更能在连续视觉令牌空间“看见”和“思考”，大幅提升细粒度视觉理解与空间几何感知能力。

传统VLMs将视觉信息压缩成离散文本令牌，导致丰富的视觉线索如边界、深度、空间布局被稀释或丢失，难以应对计数、空间对应、相对深度估计等任务。CoVT引入约20个连续视觉令牌，这些紧凑的潜在表示融合了来自轻量级视觉专家（如SAM分割、DepthAnything深度、PIDINet边缘检测和DINO语义特征）的知识，直接编码2D外观、3D几何、空间结构和边缘信息。

训练时，模型自回归预测这些视觉令牌，并通过专用解码器重建对应的视觉监督信号（如深度图、分割掩码、边缘图），实现视觉信息的内化和端到端对齐。推理时，模型可直接在视觉令牌空间推理，既保持计算效率，也能按需解码生成可解释的视觉预测，展现“视觉思考链”带来的直观推理过程。

在CV-Bench、MMVP、RealWorldQA、HRBench等十余项多模态视觉基准上，CoVT联合Qwen2.5-VL与LLaVA模型均获得3%至16%的显著提升，尤其在深度估计任务中提升超过14%。对比传统文本链式思维，CoVT突破语言瓶颈，将视觉推理提升至连续潜在空间，实现更精确、扎实且具可解释性的多模态智能。

此外，CoVT设计灵活，可动态调整视觉令牌类型与数量，支持扩展更多视觉专家，且训练采用四阶段方法（理解、生成、推理、高效利用），有效教会模型掌握视觉令牌的语义与推理能力。

总结来说，CoVT的核心创新在于：

- 以连续视觉令牌为基本单元，建立语言与视觉的紧密推理链，突破传统文本离散空间的限制；
- 结合多种视觉专家的细粒度感知信号，实现对图像空间与几何结构的深度理解；
- 通过端到端训练和推理，兼顾效率与解释性，推动多模态模型向更人类化的视觉思考迈进。

未来，CoVT有望拓展更丰富的视觉令牌组合，实现视觉与语言思维的无缝交织，打造更加通用且灵活的多模态智能系统。

详情阅读：arxiv.org/abs/2511.19418

发布于北京