DeepSeek公布多模态新技术

【#DeepSeek公布多模态新技术#】
刚刚，DeepSeek联合北大、清华正式发布多模态技术范式「Thinking with Visual Primitives（以视觉原语思考）」，并开源相关模型与技术报告。

该技术直击行业核心痛点“指代鸿沟”：现有多模态模型能看清图像，却因语言指代模糊，在计数、空间推理、拓扑任务中频频出错。

核心突破：
1. 首创将点坐标、边界框作为推理基本单元，像人类“用手指点”一样锚定逻辑链，避免注意力漂移；
2. 实现7056倍极致视觉压缩，单张图仅需约90个KV缓存条目，效率远超Claude、Gemini；
3. 设计四类专项训练数据，针对性强化复杂视觉推理能力。

实测表现：在11项基准测试中亮眼，拓扑推理任务大幅领先——迷宫导航得分66.9%（GPT-5.4仅50.6%），路径追踪56.7%（GPT-5.4为46.5%）；计数任务也超越GPT-5.4、Claude等头部模型登顶。