Collaborating Foundation Models for Domain Generalized Semantic Segmentation

📄 arXiv: 2312.09788v2 📥 PDF

作者: Yasser Benigmim, Subhankar Roy, Slim Essid, Vicky Kalogeiton, Stéphane Lathuilière

分类: cs.CV, cs.AI, cs.LG

发布日期: 2023-12-15 (更新: 2024-03-30)

备注: https://github.com/yasserben/CLOUDS ; Accepted to CVPR 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出CLOUDS框架,利用协同基础模型提升领域泛化语义分割性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 领域泛化 语义分割 基础模型 CLIP SAM 生成模型 协同学习

📋 核心要点

  1. 现有DGSS方法依赖领域随机化,但难以有效捕捉内容变化,限制了泛化能力。
  2. CLOUDS框架整合CLIP、生成模型和SAM,分别负责特征提取、内容多样性和分割优化。
  3. 实验表明,CLOUDS在合成到真实场景及不同天气条件下显著优于现有DGSS方法。

📝 摘要(中文)

领域泛化语义分割(DGSS)旨在训练一个在带标签源域上表现良好的模型,并使其在推理阶段泛化到未见过的目标域。现有的DGSS方法通常通过领域随机化(DR)来实现鲁棒的特征。然而,这种方法通常受到限制,因为它只能考虑风格的多样化,而不能考虑内容的多样化。本文提出了一种正交于DGSS的方法,并提出使用协同基础模型集合来进行领域泛化语义分割(CLOUDS)。具体来说,CLOUDS是一个集成了各种类型的基础模型的框架:(i) CLIP骨干网络,用于其鲁棒的特征表示;(ii) 生成模型,用于使内容多样化,从而覆盖可能的目标分布的各种模式;(iii) Segment Anything Model (SAM),用于迭代地细化分割模型的预测。大量的实验表明,我们的CLOUDS在从合成到真实的DGSS基准以及在不同的天气条件下都表现出色,尤其是在平均miou上分别优于现有方法5.6%和6.7%。代码可在https://github.com/yasserben/CLOUDS 获取。

🔬 方法详解

问题定义:领域泛化语义分割(DGSS)旨在解决模型在训练数据(源域)和测试数据(目标域)分布不一致时,如何保证分割性能的问题。现有方法,特别是基于领域随机化的方法,主要关注风格上的多样性,忽略了内容上的差异,导致模型泛化能力受限。

核心思路:CLOUDS的核心思路是利用多个预训练的基础模型,协同完成DGSS任务。CLIP提供鲁棒的特征表示,生成模型负责生成多样化的内容,SAM则用于迭代优化分割结果。通过这种方式,模型能够学习到更具泛化性的特征,并适应未见过的目标域。

技术框架:CLOUDS框架包含三个主要模块:1) CLIP特征提取模块:使用预训练的CLIP模型提取图像的视觉特征,CLIP在大量数据上训练,具有很强的泛化能力。2) 内容生成模块:利用生成模型(如GAN或扩散模型)生成多样化的图像内容,以模拟目标域的各种可能情况。3) 分割优化模块:使用SAM对分割结果进行迭代优化,SAM具有强大的分割能力,可以有效地提高分割精度。整个流程是,输入图像首先通过CLIP提取特征,然后通过生成模型生成多样化的图像,这些图像和原始图像一起输入到分割模型中,最后使用SAM对分割结果进行优化。

关键创新:CLOUDS的关键创新在于将多个预训练的基础模型协同起来,解决DGSS问题。与传统的领域随机化方法相比,CLOUDS不仅考虑了风格的多样性,还考虑了内容的多样性,从而提高了模型的泛化能力。此外,使用SAM进行迭代优化,进一步提高了分割精度。

关键设计:论文中没有详细说明具体的参数设置和网络结构,但可以推断,CLIP模型采用其默认的参数设置,生成模型和SAM也采用其预训练的参数。损失函数方面,可能采用了交叉熵损失函数或Dice损失函数等常用的分割损失函数。具体细节需要在代码中进一步分析。

📊 实验亮点

CLOUDS在合成到真实的DGSS基准测试中,平均miou分别优于现有方法5.6%,在不同天气条件下,平均miou优于现有方法6.7%。这些结果表明,CLOUDS框架能够有效地提高DGSS的性能,并具有很强的泛化能力。

🎯 应用场景

CLOUDS框架在自动驾驶、遥感图像分析、医疗图像诊断等领域具有广泛的应用前景。例如,在自动驾驶中,可以利用CLOUDS提高车辆在不同天气和光照条件下的感知能力,从而提高驾驶安全性。在遥感图像分析中,可以利用CLOUDS提高对不同地物类型的识别精度,从而为土地利用规划和环境保护提供支持。

📄 摘要(原文)

Domain Generalized Semantic Segmentation (DGSS) deals with training a model on a labeled source domain with the aim of generalizing to unseen domains during inference. Existing DGSS methods typically effectuate robust features by means of Domain Randomization (DR). Such an approach is often limited as it can only account for style diversification and not content. In this work, we take an orthogonal approach to DGSS and propose to use an assembly of CoLlaborative FOUndation models for Domain Generalized Semantic Segmentation (CLOUDS). In detail, CLOUDS is a framework that integrates FMs of various kinds: (i) CLIP backbone for its robust feature representation, (ii) generative models to diversify the content, thereby covering various modes of the possible target distribution, and (iii) Segment Anything Model (SAM) for iteratively refining the predictions of the segmentation model. Extensive experiments show that our CLOUDS excels in adapting from synthetic to real DGSS benchmarks and under varying weather conditions, notably outperforming prior methods by 5.6% and 6.7% on averaged miou, respectively. The code is available at : https://github.com/yasserben/CLOUDS