Stronger, Fewer, & Superior: Harnessing Vision Foundation Models for Domain Generalized Semantic Segmentation

📄 arXiv: 2312.04265v5 📥 PDF

作者: Zhixiang Wei, Lin Chen, Yi Jin, Xiaoxiao Ma, Tianle Liu, Pengyang Ling, Ben Wang, Huaian Chen, Jinjin Zheng

分类: cs.CV

发布日期: 2023-12-07 (更新: 2024-04-18)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Rein方法,利用视觉基础模型实现领域泛化语义分割,仅需少量参数即可超越全参数微调。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 领域泛化语义分割 视觉基础模型 参数高效微调 可训练Tokens 特征细化

📋 核心要点

  1. 领域泛化语义分割任务面临跨领域泛化性差的挑战,现有方法难以充分利用预训练模型的强大能力。
  2. Rein方法通过引入少量可训练的tokens,精确地细化和传递骨干网络中的特征图,实现对不同类别的针对性优化。
  3. 实验表明,Rein仅需少量额外参数,即可显著超越现有方法,并在Cityscapes数据集上取得优异的mIoU结果。

📝 摘要(中文)

本文旨在领域泛化语义分割(DGSS)的背景下,评估并利用各种视觉基础模型(VFMs)。受“利用更强大的预训练模型和更少的训练参数以获得卓越的泛化能力”这一动机的驱动,我们提出了一种鲁棒的微调方法,即Rein,以参数高效的方式利用VFMs进行DGSS。Rein建立在一组可训练的tokens之上,每个token与不同的实例相关联,精确地细化并将来自每一层的特征图传递到骨干网络中的下一层。此过程为单个图像中的不同类别生成不同的细化。凭借更少的训练参数,Rein有效地微调VFMs以用于DGSS任务,令人惊讶地超越了全参数微调。在各种设置下进行的大量实验表明,Rein显著优于最先进的方法。值得注意的是,仅在冻结的骨干网络中增加1%的额外可训练参数,Rein即可在Cityscapes上实现78.4%的mIoU,而无需访问任何真实的城市场景数据集。

🔬 方法详解

问题定义:领域泛化语义分割(DGSS)旨在训练一个模型,使其在未见过的目标领域上也能表现良好。现有方法通常需要大量的领域特定数据进行微调,或者难以充分利用大规模预训练模型的能力。痛点在于如何在有限的计算资源下,提升模型的泛化能力,避免过拟合到源域数据。

核心思路:Rein的核心思路是利用视觉基础模型(VFMs)强大的特征提取能力,并通过少量可训练的参数进行高效微调,从而实现更好的领域泛化性能。通过引入一组可训练的tokens,每个token负责特定实例的特征细化,使得模型能够针对不同类别进行自适应调整。

技术框架:Rein方法主要包含以下几个模块:1) 视觉基础模型(VFM)作为特征提取器,提取输入图像的特征图;2) 一组可训练的tokens,用于对VFM提取的特征进行细化;3) 特征传递机制,将细化后的特征图逐层传递到骨干网络中,实现特征的逐步优化;4) 分割头,用于将最终的特征图映射到像素级别的语义分割结果。

关键创新:Rein的关键创新在于其参数高效的微调策略。与全参数微调相比,Rein仅需训练少量的tokens,即可实现更好的性能。这种方法避免了对整个骨干网络进行微调,从而降低了计算成本,并减少了过拟合的风险。此外,Rein的特征传递机制能够有效地利用VFM各层的特征,实现更精细的特征表示。

关键设计:Rein的关键设计包括:1) 可训练tokens的数量和初始化方式;2) 特征传递机制的具体实现,例如如何将tokens的特征融入到骨干网络的特征图中;3) 损失函数的设计,例如是否引入额外的正则化项来约束tokens的学习;4) 分割头的选择,例如使用简单的线性分类器或更复杂的卷积神经网络。

📊 实验亮点

Rein方法在Cityscapes数据集上取得了显著的性能提升,仅使用1%的额外可训练参数,即可达到78.4%的mIoU,超越了现有最先进的方法。更重要的是,该方法无需访问任何真实的城市场景数据集,展示了其强大的领域泛化能力。实验结果表明,Rein能够有效地利用视觉基础模型,并通过参数高效的微调策略,实现卓越的性能。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、遥感图像分析、医疗图像分割等领域。通过利用视觉基础模型和参数高效的微调策略,可以降低模型训练成本,提高模型在不同场景下的泛化能力,从而加速相关技术的落地和应用。未来,该方法有望扩展到其他视觉任务,例如目标检测、图像生成等。

📄 摘要(原文)

In this paper, we first assess and harness various Vision Foundation Models (VFMs) in the context of Domain Generalized Semantic Segmentation (DGSS). Driven by the motivation that Leveraging Stronger pre-trained models and Fewer trainable parameters for Superior generalizability, we introduce a robust fine-tuning approach, namely Rein, to parameter-efficiently harness VFMs for DGSS. Built upon a set of trainable tokens, each linked to distinct instances, Rein precisely refines and forwards the feature maps from each layer to the next layer within the backbone. This process produces diverse refinements for different categories within a single image. With fewer trainable parameters, Rein efficiently fine-tunes VFMs for DGSS tasks, surprisingly surpassing full parameter fine-tuning. Extensive experiments across various settings demonstrate that Rein significantly outperforms state-of-the-art methods. Remarkably, with just an extra 1% of trainable parameters within the frozen backbone, Rein achieves a mIoU of 78.4% on the Cityscapes, without accessing any real urban-scene datasets.Code is available at https://github.com/w1oves/Rein.git.