SAM 3图像与视频分割模型发布

[CV]《SAM 3: Segment Anything with Concepts》N Carion, L Gustafson, Y Hu, S Debnath... [Meta Superintelligence Labs] (2025)

全新发布：SAM 3——首个统一的“概念驱动”图像与视频分割模型。它不仅能识别和分割单个物体，还能基于简短的名词短语（如“黄色校车”）、图像示例或两者结合，自动精准标注所有符合概念的实例，实现真正的开放词汇分割。

核心创新：
1. 提出“可提示概念分割（PCS）”任务，输入文本或示例图像，实现对所有匹配实例的语义掩码和身份跟踪，支持图像和视频。
2. 架构设计巧妙，分离识别与定位任务，采用“presence token”提升检测准确率，集成基于DETR的检测器与记忆增强的视频跟踪器，兼顾实时性能与精度。
3. 构建了高效的数据引擎，联合人类与AI注释者，迭代采集涵盖400万独特概念标签、5200万掩码的超大高质量数据集SA-Co，涵盖丰富视觉域与长尾概念。
4. SA-Co基准测试包含超过20万独特短语，12万图像及视频，规模是现有开源数据集的50倍以上，支持细粒度、多样化的开放词汇评测。
5. 实验结果显著领先现有最强模型，SAM 3在LVIS、COCO、SA-Co等多领域实现零样本性能翻倍，视频分割及交互式细化表现同样优异。
6. 支持交互式迭代，通过正负示例框不断优化分割结果，提升用户控制力和标注效率。
7. 可与多模态大语言模型（MLLM）协同，处理更复杂的语言表达，拓展应用边界。

深度思考：
- “识别与定位解耦”是打开开放词汇视觉理解的关键，使模型既能准确判断概念是否出现，也能精细定位每个实例。
- 结合人类智能与AI自动化的注释体系，极大提升数据质量与规模，奠定开放概念视觉模型训练的基础。
- 未来多模态AI的核心支撑将是此类灵活、交互式、开放词汇的视觉理解技术，推动机器人、增强现实、科学研究等领域的飞跃。

SAM 3不仅是技术升级，更是开放视觉理解范式的里程碑，期待它引领下一代计算机视觉革命。

详情阅读与代码开源：
segment-anything.com
github.com/facebookresearch/sam3
ai.meta.com/sam3
arxiv.org/abs/2511.16719

发布于北京