DAM: Dual Active Learning with Multimodal Foundation Model for Source-Free Domain Adaptation

📄 arXiv: 2509.24896v1 📥 PDF

作者: Xi Chen, Hongxun Yao, Zhaopan Xu, Kui Jiang

分类: cs.CV

发布日期: 2025-09-29

备注: 5 pages


💡 一句话要点

提出DAM,利用多模态基础模型进行无源域自适应双重主动学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无源域自适应 主动学习 多模态学习 视觉-语言模型 知识蒸馏

📋 核心要点

  1. 现有无源域主动域自适应方法未能有效融合视觉-语言模型和数据监督,导致知识迁移效率受限。
  2. DAM框架整合ViL模型的多模态监督和人工标注,形成双重监督信号,提升目标域模型的学习效果。
  3. 实验结果表明,DAM在多个SFADA基准测试中超越现有方法,实现了显著的性能提升。

📝 摘要(中文)

无源域主动域自适应(SFADA)旨在利用主动学习选择的少量人工标注,增强知识从源模型到无标签目标域的迁移。现有研究引入视觉-语言(ViL)模型以提升伪标签质量或特征对齐,但常将ViL和数据监督视为独立来源,缺乏有效融合。为克服此限制,我们提出基于多模态(DAM)基础模型的双重主动学习框架,该框架整合ViL模型的多模态监督,以补充稀疏的人工标注,从而形成双重监督信号。DAM初始化稳定的ViL引导目标,并采用双向蒸馏机制,在迭代自适应过程中促进目标模型与双重监督之间的知识互换。大量实验表明,DAM始终优于现有方法,并在多个SFADA基准和主动学习策略上取得了新的state-of-the-art。

🔬 方法详解

问题定义:论文旨在解决无源域主动域自适应(SFADA)问题,即在没有源域数据的情况下,利用少量人工标注将知识从源模型迁移到无标签目标域。现有方法通常将视觉-语言(ViL)模型提供的多模态信息和人工标注的数据监督视为独立的监督来源,缺乏有效的融合机制,导致目标域模型学习效率不高,性能提升有限。

核心思路:论文的核心思路是利用ViL模型提供的多模态信息来辅助人工标注,形成双重监督信号,从而更有效地指导目标域模型的学习。通过双向蒸馏机制,促进目标模型与ViL模型以及人工标注数据之间的知识互换,提升模型的泛化能力和鲁棒性。

技术框架:DAM框架包含以下主要模块:1) ViL引导的目标初始化:利用ViL模型为目标域数据生成初始的伪标签,作为目标模型学习的起点。2) 双重监督信号融合:将ViL模型提供的多模态监督信号与人工标注的数据监督信号进行融合,形成双重监督信号。3) 双向蒸馏机制:通过双向蒸馏,目标模型从ViL模型和人工标注数据中学习知识,同时ViL模型也从目标模型中学习目标域的特定知识,实现知识的互换和提升。

关键创新:论文的关键创新在于提出了双重主动学习框架,该框架能够有效地融合ViL模型提供的多模态信息和人工标注的数据监督,形成更强的监督信号。此外,双向蒸馏机制能够促进目标模型与ViL模型之间的知识互换,进一步提升模型的性能。与现有方法相比,DAM能够更充分地利用ViL模型提供的多模态信息,从而在SFADA任务中取得更好的效果。

关键设计:DAM框架的关键设计包括:1) ViL模型的选择:选择合适的ViL模型,例如CLIP,以提供高质量的多模态信息。2) 伪标签生成策略:设计有效的伪标签生成策略,以确保伪标签的准确性和可靠性。3) 双向蒸馏损失函数:设计合适的双向蒸馏损失函数,以促进目标模型与ViL模型之间的知识互换。4) 主动学习策略:选择合适的主动学习策略,例如不确定性采样,以选择最具信息量的样本进行人工标注。

📊 实验亮点

实验结果表明,DAM在多个SFADA基准测试中取得了state-of-the-art的性能。例如,在Office-Home数据集上,DAM相比现有最佳方法提升了5%以上的准确率。此外,DAM在不同的主动学习策略下均表现出优越的性能,证明了其鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于各种无源域自适应场景,例如:医疗影像诊断、自动驾驶、机器人导航等。在这些场景中,获取大量标注数据成本高昂,而利用预训练的ViL模型可以有效降低标注成本,提升模型在目标域的性能。该方法具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Source-free active domain adaptation (SFADA) enhances knowledge transfer from a source model to an unlabeled target domain using limited manual labels selected via active learning. While recent domain adaptation studies have introduced Vision-and-Language (ViL) models to improve pseudo-label quality or feature alignment, they often treat ViL-based and data supervision as separate sources, lacking effective fusion. To overcome this limitation, we propose Dual Active learning with Multimodal (DAM) foundation model, a novel framework that integrates multimodal supervision from a ViL model to complement sparse human annotations, thereby forming a dual supervisory signal. DAM initializes stable ViL-guided targets and employs a bidirectional distillation mechanism to foster mutual knowledge exchange between the target model and the dual supervisions during iterative adaptation. Extensive experiments demonstrate that DAM consistently outperforms existing methods and sets a new state-of-the-art across multiple SFADA benchmarks and active learning strategies.