Foundation Model Assisted Weakly Supervised Semantic Segmentation

📄 arXiv: 2312.03585v2 📥 PDF

作者: Xiaobo Yang, Xiaojin Gong

分类: cs.CV, cs.AI

发布日期: 2023-12-06 (更新: 2023-12-10)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于CLIP和SAM的粗细粒度框架,解决弱监督语义分割问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 弱监督语义分割 预训练模型 CLIP SAM 提示学习 对比学习 伪标签

📋 核心要点

  1. 现有弱监督语义分割方法依赖于不精确的种子区域,限制了分割性能。
  2. 利用CLIP和SAM的强大先验知识,通过可学习的提示生成高质量的分割种子。
  3. 在PASCAL VOC 2012上达到SOTA,并在MS COCO 2014上取得有竞争力的结果。

📝 摘要(中文)

本文旨在利用预训练的Foundation Model,如对比语言-图像预训练(CLIP)和分割一切模型(SAM),来解决使用图像级标签的弱监督语义分割(WSSS)问题。为此,我们提出了一个基于CLIP和SAM的粗到细框架,用于生成高质量的分割种子。具体来说,我们构建了一个图像分类任务和一个种子分割任务,这两个任务由具有冻结权重的CLIP和两组可学习的任务特定提示共同执行。设计了一个基于SAM的播种(SAMS)模块,并将其应用于每个任务,以生成粗略或精细的种子图。此外,我们设计了一个由图像级标签监督的多标签对比损失和一个由生成的粗种子图监督的CAM激活损失。这些损失用于学习提示,这是我们框架中唯一需要学习的部分。一旦学习了提示,我们将每个图像以及学习到的分割特定提示输入到CLIP和SAMS模块中,以生成高质量的分割种子。这些种子作为伪标签来训练现成的分割网络,就像其他两阶段WSSS方法一样。实验表明,我们的方法在PASCAL VOC 2012上取得了最先进的性能,并在MS COCO 2014上取得了有竞争力的结果。

🔬 方法详解

问题定义:弱监督语义分割(WSSS)旨在仅使用图像级别的标签训练语义分割模型。现有的WSSS方法通常依赖于生成粗糙的种子区域,这些区域通常不准确或不完整,严重限制了最终分割性能。如何利用预训练模型提升种子区域质量是一个关键问题。

核心思路:本文的核心思路是利用预训练的CLIP和SAM模型,通过学习任务特定的提示(prompts),引导模型生成高质量的分割种子。CLIP提供强大的视觉语义理解能力,SAM提供精确的分割能力。通过结合两者,可以有效地生成更准确、更完整的分割种子,从而提升WSSS的性能。

技术框架:该方法采用一个两阶段的粗到细框架。第一阶段,利用CLIP和SAM生成分割种子。具体来说,构建图像分类和种子分割两个任务,使用CLIP(冻结权重)和两组可学习的提示来执行这些任务。设计SAMS模块,基于SAM生成粗略和精细的种子图。第二阶段,使用生成的种子图作为伪标签,训练一个现成的分割网络。

关键创新:该方法最重要的创新点在于利用可学习的提示,将CLIP和SAM的先验知识有效地迁移到WSSS任务中。与直接使用CLIP或SAM进行分割不同,该方法通过学习提示,使模型能够更好地适应WSSS任务的特点,从而生成更适合WSSS的分割种子。

关键设计:关键设计包括:1) 多标签对比损失,用于学习图像分类任务的提示;2) CAM激活损失,用于学习种子分割任务的提示;3) 基于SAM的播种(SAMS)模块,用于生成粗略和精细的种子图。损失函数的设计旨在利用图像级标签和粗种子图来监督提示的学习。CLIP的权重被冻结,只学习提示,降低了计算成本。

📊 实验亮点

该方法在PASCAL VOC 2012数据集上取得了state-of-the-art的性能,超越了现有的WSSS方法。在MS COCO 2014数据集上也取得了具有竞争力的结果,验证了该方法的有效性和泛化能力。代码已开源,方便研究人员复现和进一步研究。

🎯 应用场景

该研究成果可应用于图像编辑、自动驾驶、医学图像分析等领域。高质量的弱监督语义分割技术可以降低标注成本,提高模型在实际应用中的泛化能力。未来,该方法可以扩展到其他视觉任务,如目标检测、图像描述等。

📄 摘要(原文)

This work aims to leverage pre-trained foundation models, such as contrastive language-image pre-training (CLIP) and segment anything model (SAM), to address weakly supervised semantic segmentation (WSSS) using image-level labels. To this end, we propose a coarse-to-fine framework based on CLIP and SAM for generating high-quality segmentation seeds. Specifically, we construct an image classification task and a seed segmentation task, which are jointly performed by CLIP with frozen weights and two sets of learnable task-specific prompts. A SAM-based seeding (SAMS) module is designed and applied to each task to produce either coarse or fine seed maps. Moreover, we design a multi-label contrastive loss supervised by image-level labels and a CAM activation loss supervised by the generated coarse seed map. These losses are used to learn the prompts, which are the only parts need to be learned in our framework. Once the prompts are learned, we input each image along with the learned segmentation-specific prompts into CLIP and the SAMS module to produce high-quality segmentation seeds. These seeds serve as pseudo labels to train an off-the-shelf segmentation network like other two-stage WSSS methods. Experiments show that our method achieves the state-of-the-art performance on PASCAL VOC 2012 and competitive results on MS COCO 2014. Code is available at https://github.com/HAL-42/FMA-WSSS.git.