[CV]《Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens》Y Qin, B Wei, J Ge, K Kallidromitis... [UC Berkeley & UCLA] (2025)
本文介绍了Chain-of-Visual-Thought(CoVT)框架,开创性地让视觉-语言模型(VLMs)不仅在语言空间推理,更能在连续视觉令牌空间“看见”和“思考”,大幅提升细粒度视觉理解与空间几何感知能力。
传统VLMs将视觉信息压缩成离散文本令牌,导致丰富的视觉线索如边界、深度、空间布局被稀释或丢失,难以应对计数、空间对应、相对深度估计等任务。CoVT引入约20个连续视觉令牌,这些紧凑的潜在表示融合了来自轻量级视觉专家(如SAM分割、DepthAnything深度、PIDINet边缘检测和DINO语义特征)的知识,直接编码2D外观、3D几何、空间结构和边缘信息。
训练时,模型自回归预测这些视觉令牌,并通过专用解码器重建对应的视觉监督信号(如深度图、分割掩码、边缘图),实现视觉信息的内化和端到端对齐。推理时,模型可直接在视觉令牌空间推理,既保持计算效率,也能按需解码生成可解释的视觉预测,展现“视觉思考链”带来的直观推理过程。
在CV-Bench、MMVP、RealWorldQA、HRBench等十余项多模态视觉基准上,CoVT联合Qwen2.5-VL与LLaVA模型均获得3%至16%的显著提升,尤其在深度估计任务中提升超过14%。对比传统文本链式思维,CoVT突破语言瓶颈,将视觉推理提升至连续潜在空间,实现更精确、扎实且具可解释性的多模态智能。
此外,CoVT设计灵活,可动态调整视觉令牌类型与数量,支持扩展更多视觉专家,且训练采用四阶段方法(理解、生成、推理、高效利用),有效教会模型掌握视觉令牌的语义与推理能力。
总结来说,CoVT的核心创新在于:
- 以连续视觉令牌为基本单元,建立语言与视觉的紧密推理链,突破传统文本离散空间的限制;
- 结合多种视觉专家的细粒度感知信号,实现对图像空间与几何结构的深度理解;
- 通过端到端训练和推理,兼顾效率与解释性,推动多模态模型向更人类化的视觉思考迈进。
未来,CoVT有望拓展更丰富的视觉令牌组合,实现视觉与语言思维的无缝交织,打造更加通用且灵活的多模态智能系统。
详情阅读:arxiv.org/abs/2511.19418
