[CV]《SAM 3: Segment Anything with Concepts》N Carion, L Gustafson, Y Hu, S Debnath... [Meta Superintelligence Labs] (2025)
全新发布:SAM 3——首个统一的“概念驱动”图像与视频分割模型。它不仅能识别和分割单个物体,还能基于简短的名词短语(如“黄色校车”)、图像示例或两者结合,自动精准标注所有符合概念的实例,实现真正的开放词汇分割。
核心创新:
1. 提出“可提示概念分割(PCS)”任务,输入文本或示例图像,实现对所有匹配实例的语义掩码和身份跟踪,支持图像和视频。
2. 架构设计巧妙,分离识别与定位任务,采用“presence token”提升检测准确率,集成基于DETR的检测器与记忆增强的视频跟踪器,兼顾实时性能与精度。
3. 构建了高效的数据引擎,联合人类与AI注释者,迭代采集涵盖400万独特概念标签、5200万掩码的超大高质量数据集SA-Co,涵盖丰富视觉域与长尾概念。
4. SA-Co基准测试包含超过20万独特短语,12万图像及视频,规模是现有开源数据集的50倍以上,支持细粒度、多样化的开放词汇评测。
5. 实验结果显著领先现有最强模型,SAM 3在LVIS、COCO、SA-Co等多领域实现零样本性能翻倍,视频分割及交互式细化表现同样优异。
6. 支持交互式迭代,通过正负示例框不断优化分割结果,提升用户控制力和标注效率。
7. 可与多模态大语言模型(MLLM)协同,处理更复杂的语言表达,拓展应用边界。
深度思考:
- “识别与定位解耦”是打开开放词汇视觉理解的关键,使模型既能准确判断概念是否出现,也能精细定位每个实例。
- 结合人类智能与AI自动化的注释体系,极大提升数据质量与规模,奠定开放概念视觉模型训练的基础。
- 未来多模态AI的核心支撑将是此类灵活、交互式、开放词汇的视觉理解技术,推动机器人、增强现实、科学研究等领域的飞跃。
SAM 3不仅是技术升级,更是开放视觉理解范式的里程碑,期待它引领下一代计算机视觉革命。
详情阅读与代码开源:
segment-anything.com
github.com/facebookresearch/sam3
ai.meta.com/sam3
arxiv.org/abs/2511.16719
