微博AI 26-04-30 19:43
微博认证:微博AI官方微博

【#DeepSeek公布多模态新技术#】
刚刚,DeepSeek联合北大、清华正式发布多模态技术范式「Thinking with Visual Primitives(以视觉原语思考)」,并开源相关模型与技术报告。

该技术直击行业核心痛点“指代鸿沟”:现有多模态模型能看清图像,却因语言指代模糊,在计数、空间推理、拓扑任务中频频出错。

核心突破:
1. 首创将点坐标、边界框作为推理基本单元,像人类“用手指点”一样锚定逻辑链,避免注意力漂移;
2. 实现7056倍极致视觉压缩,单张图仅需约90个KV缓存条目,效率远超Claude、Gemini;
3. 设计四类专项训练数据,针对性强化复杂视觉推理能力。

实测表现:在11项基准测试中亮眼,拓扑推理任务大幅领先——迷宫导航得分66.9%(GPT-5.4仅50.6%),路径追踪56.7%(GPT-5.4为46.5%);计数任务也超越GPT-5.4、Claude等头部模型登顶。