A Tale of Two Experts: Cooperative Learning for Source-Free Unsupervised Domain Adaptation
作者: Jiaping Yu, Muli Yang, Jiapeng Ji, Jiexi Yan, Cheng Deng
分类: cs.CV
发布日期: 2025-09-26 (更新: 2025-10-06)
💡 一句话要点
提出专家协同学习框架EXCL,解决无源域无监督域自适应问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无源域自适应 领域自适应 协同学习 视觉-语言模型 知识迁移
📋 核心要点
- 现有SFUDA方法忽略了源模型和预训练视觉-语言模型提供的互补信息,且未充分挖掘目标域数据的潜在结构。
- 提出专家协同学习框架EXCL,利用双专家(源域模型和视觉-语言模型)挖掘目标域的共识知识。
- 引入检索增强交互(RAIN)流程,协同检索样本并分别微调专家,通过共享学习结果保证一致性。
📝 摘要(中文)
本文提出了一种专家协同学习(EXCL)方法,用于解决无源域无监督域自适应(SFUDA)问题。SFUDA旨在将源域训练的模型适应到目标域,且无法访问源数据。现有方法要么仅利用源模型的预测,要么微调大型多模态模型,忽略了互补信息和目标数据的潜在结构。EXCL包含双专家框架和检索增强交互(RAIN)优化流程。双专家框架将冻结的源域模型(通过Conv-Adapter增强)和预训练的视觉-语言模型(带有可训练的文本提示)置于同等地位,以挖掘来自未标记目标样本的共识知识。RAIN是一个三阶段流程,用于在纯无监督条件下有效训练这些插件模块,它(1)协同检索伪源样本和复杂目标样本,(2)分别在各自的样本集上微调每个专家,以及(3)通过共享学习结果来强制学习对象一致性。在四个基准数据集上的大量实验表明,该方法达到了最先进的性能。
🔬 方法详解
问题定义:无源域无监督域自适应(SFUDA)问题,即在无法访问源数据的情况下,将源域训练的模型迁移到目标域。现有方法主要存在两个痛点:一是仅依赖源模型的预测,忽略了目标域的自身信息;二是直接微调大型多模态模型,计算成本高昂且可能引入噪声。
核心思路:论文的核心思路是利用两个“专家”——源域模型和预训练的视觉-语言模型,通过协同学习的方式,互相补充信息,从而更好地适应目标域。这种方法旨在结合源模型的先验知识和视觉-语言模型的泛化能力,同时避免直接微调大型模型带来的问题。
技术框架:EXCL框架包含两个主要部分:双专家框架和检索增强交互(RAIN)优化流程。双专家框架由一个冻结的源域模型(通过Conv-Adapter增强)和一个预训练的视觉-语言模型(带有可训练的文本提示)组成。RAIN流程分为三个阶段:(1)协同检索伪源样本和复杂目标样本;(2)分别在各自的样本集上微调每个专家;(3)通过共享学习结果来强制学习对象一致性。
关键创新:该论文的关键创新在于提出了双专家协同学习的框架,将源域模型和视觉-语言模型置于同等重要的地位,并通过RAIN流程实现有效的无监督训练。与现有方法相比,EXCL能够更好地利用不同模型的优势,挖掘目标域的潜在结构,从而提高自适应性能。
关键设计:Conv-Adapter用于增强源域模型,使其更好地适应目标域的特征。可训练的文本提示用于引导视觉-语言模型学习目标域的知识。RAIN流程中的样本检索策略旨在选择具有代表性的样本,从而提高训练效率。共享学习结果通过一致性损失函数来实现,确保两个专家学习到一致的表示。
📊 实验亮点
在四个基准数据集上的实验结果表明,EXCL方法达到了最先进的性能。具体而言,EXCL在多个数据集上超越了现有的SFUDA方法,证明了其有效性。实验结果验证了双专家协同学习和RAIN流程的优势。
🎯 应用场景
该研究成果可应用于各种需要跨领域知识迁移的场景,例如医疗影像分析、自动驾驶、机器人导航等。在这些场景中,由于数据隐私或获取成本的限制,无法直接访问源域数据,因此SFUDA技术具有重要的应用价值。EXCL框架的提出,为解决此类问题提供了一种新的思路。
📄 摘要(原文)
Source-Free Unsupervised Domain Adaptation (SFUDA) addresses the realistic challenge of adapting a source-trained model to a target domain without access to the source data, driven by concerns over privacy and cost. Existing SFUDA methods either exploit only the source model's predictions or fine-tune large multimodal models, yet both neglect complementary insights and the latent structure of target data. In this paper, we propose the Experts Cooperative Learning (EXCL). EXCL contains the Dual Experts framework and Retrieval-Augmentation-Interaction optimization pipeline. The Dual Experts framework places a frozen source-domain model (augmented with Conv-Adapter) and a pretrained vision-language model (with a trainable text prompt) on equal footing to mine consensus knowledge from unlabeled target samples. To effectively train these plug-in modules under purely unsupervised conditions, we introduce Retrieval-Augmented-Interaction(RAIN), a three-stage pipeline that (1) collaboratively retrieves pseudo-source and complex target samples, (2) separately fine-tunes each expert on its respective sample set, and (3) enforces learning object consistency via a shared learning result. Extensive experiments on four benchmark datasets demonstrate that our approach matches state-of-the-art performance.