TF-SSD: A Strong Pipeline via Synergic Mask Filter for Training-free Co-salient Object Detection

📄 arXiv: 2604.00549v1 📥 PDF

作者: Zhijin He, Shuo Jin, Siyue Yu, Shuwei Wu, Bingfeng Zhang, Li Yu, Jimin Xiao

分类: cs.CV

发布日期: 2026-04-01

备注: Accepted by CVPR26

🔗 代码/项目: GITHUB


💡 一句话要点

提出TF-SSD:通过协同Mask过滤的免训练共显著性目标检测方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 共显著性目标检测 视觉基础模型 免训练学习 SAM DINO

📋 核心要点

  1. 现有CoSOD方法依赖于封闭数据集训练,泛化能力受限,未能充分利用视觉基础模型(VFMs)的强大能力。
  2. TF-SSD通过SAM生成候选掩码,并利用DINO的注意力机制进行图像内和图像间的显著性过滤,无需训练即可实现CoSOD。
  3. 实验结果表明,TF-SSD在CoSOD任务上显著优于现有方法,例如,比最近的免训练方法提高了13.7%。

📝 摘要(中文)

共显著性目标检测(CoSOD)旨在分割一组相关图像中一致出现的显著性目标。尽管最近基于训练的方法取得了显著进展,但它们仍然受到封闭数据集的限制,并且泛化能力有限。本文探索并利用视觉基础模型(VFMs)解决CoSOD问题,这些模型表现出强大的泛化能力和鲁棒的显著性理解。我们提出了一种新颖的免训练方法TF-SSD,通过SAM和DINO之间的协同作用实现。具体来说,我们首先利用SAM生成全面的原始提议,作为候选掩码池。然后,我们引入一个高质量掩码生成器来过滤掉冗余掩码,从而获得一个精炼的掩码集。由于该生成器建立在SAM之上,因此它本质上缺乏对显著性的语义理解。为此,我们采用了一种图像内显著性过滤器,该过滤器利用DINO的注意力图来识别单个图像中视觉上显著的掩码。此外,为了扩展跨组图像的显著性理解,我们提出了一种图像间原型选择器,该选择器计算跨图像原型之间的相似性得分,以选择得分最高的掩码。这些选定的掩码作为CoSOD的最终预测。大量实验表明,我们的TF-SSD优于现有方法(例如,比最近的免训练方法提高了13.7%)。

🔬 方法详解

问题定义:CoSOD旨在从一组相关图像中分割出共同的显著性目标。现有基于训练的方法依赖于特定数据集,泛化能力差,难以适应新的场景。此外,这些方法通常需要大量的标注数据和计算资源进行训练。

核心思路:TF-SSD的核心思路是利用视觉基础模型(VFMs)如SAM和DINO的强大泛化能力和显著性理解能力,构建一个无需训练的CoSOD流程。通过SAM生成候选掩码,然后利用DINO的注意力机制进行过滤和选择,从而提取出共显著性目标。

技术框架:TF-SSD包含以下主要模块:1) SAM掩码生成:利用SAM生成图像中所有可能的对象掩码,形成候选掩码池。2) 质量掩码生成器:基于SAM过滤掉冗余和低质量的掩码,减少后续处理的计算量。3) 图像内显著性过滤器:利用DINO的注意力图,在单个图像内选择视觉上最显著的掩码。4) 图像间原型选择器:计算不同图像原型之间的相似度,选择具有最高相似度的掩码作为最终的CoSOD结果。

关键创新:TF-SSD的关键创新在于提出了一种无需训练的CoSOD方法,充分利用了视觉基础模型的先验知识和泛化能力。通过SAM和DINO的协同作用,实现了对共显著性目标的有效提取,避免了对大量标注数据的依赖。

关键设计:图像间原型选择器通过计算跨图像原型之间的相似性得分来选择掩码。具体来说,首先提取每个掩码的DINO特征,然后计算这些特征之间的余弦相似度。选择具有最高平均相似度得分的掩码作为最终预测。具体的参数设置,例如DINO特征提取的层数和相似度阈值,可能需要根据具体数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TF-SSD在多个CoSOD数据集上取得了显著的性能提升。例如,在某个数据集上,TF-SSD比最近的免训练方法提高了13.7%。实验结果表明,TF-SSD能够有效地提取共显著性目标,并且具有较强的泛化能力,可以适应不同的场景和数据集。

🎯 应用场景

TF-SSD具有广泛的应用前景,例如图像编辑、视频监控、机器人视觉、医学图像分析等领域。在图像编辑中,可以自动提取共显著性目标进行编辑和修改。在视频监控中,可以用于检测和跟踪多个摄像头下的共同目标。在机器人视觉中,可以帮助机器人理解场景并与多个目标进行交互。在医学图像分析中,可以用于辅助医生诊断疾病。

📄 摘要(原文)

Co-salient Object Detection (CoSOD) aims to segment salient objects that consistently appear across a group of related images. Despite the notable progress achieved by recent training-based approaches, they still remain constrained by the closed-set datasets and exhibit limited generalization. However, few studies explore the potential of Vision Foundation Models (VFMs) to address CoSOD, which demonstrate a strong generalized ability and robust saliency understanding. In this paper, we investigate and leverage VFMs for CoSOD, and further propose a novel training-free method, TF-SSD, through the synergy between SAM and DINO. Specifically, we first utilize SAM to generate comprehensive raw proposals, which serve as a candidate mask pool. Then, we introduce a quality mask generator to filter out redundant masks, thereby acquiring a refined mask set. Since this generator is built upon SAM, it inherently lacks semantic understanding of saliency. To this end, we adopt an intra-image saliency filter that employs DINO's attention maps to identify visually salient masks within individual images. Moreover, to extend saliency understanding across group images, we propose an inter-image prototype selector, which computes similarity scores among cross-image prototypes to select masks with the highest score. These selected masks serve as final predictions for CoSOD. Extensive experiments show that our TF-SSD outperforms existing methods (e.g., 13.7\% gains over the recent training-free method). Codes are available at https://github.com/hzz-yy/TF-SSD.