DAM: Dual Active Learning with Multimodal Foundation Model for Source-Free Domain Adaptation

作者: Xi Chen, Hongxun Yao, Zhaopan Xu, Kui Jiang

分类: cs.CV

发布日期: 2025-09-29

备注: 5 pages

💡 一句话要点

提出DAM，利用多模态基础模型进行无源域自适应双重主动学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无源域自适应 主动学习 多模态学习 视觉-语言模型 知识蒸馏

📋 核心要点

现有无源域主动域自适应方法未能有效融合视觉-语言模型和数据监督，导致知识迁移效率受限。
DAM框架整合ViL模型的多模态监督和人工标注，形成双重监督信号，提升目标域模型的学习效果。
实验结果表明，DAM在多个SFADA基准测试中超越现有方法，实现了显著的性能提升。

📝 摘要（中文）

无源域主动域自适应(SFADA)旨在利用主动学习选择的少量人工标注，增强知识从源模型到无标签目标域的迁移。现有研究引入视觉-语言(ViL)模型以提升伪标签质量或特征对齐，但常将ViL和数据监督视为独立来源，缺乏有效融合。为克服此限制，我们提出基于多模态(DAM)基础模型的双重主动学习框架，该框架整合ViL模型的多模态监督，以补充稀疏的人工标注，从而形成双重监督信号。DAM初始化稳定的ViL引导目标，并采用双向蒸馏机制，在迭代自适应过程中促进目标模型与双重监督之间的知识互换。大量实验表明，DAM始终优于现有方法，并在多个SFADA基准和主动学习策略上取得了新的state-of-the-art。

🔬 方法详解

问题定义：论文旨在解决无源域主动域自适应(SFADA)问题，即在没有源域数据的情况下，利用少量人工标注将知识从源模型迁移到无标签目标域。现有方法通常将视觉-语言(ViL)模型提供的多模态信息和人工标注的数据监督视为独立的监督来源，缺乏有效的融合机制，导致目标域模型学习效率不高，性能提升有限。

核心思路：论文的核心思路是利用ViL模型提供的多模态信息来辅助人工标注，形成双重监督信号，从而更有效地指导目标域模型的学习。通过双向蒸馏机制，促进目标模型与ViL模型以及人工标注数据之间的知识互换，提升模型的泛化能力和鲁棒性。

技术框架：DAM框架包含以下主要模块：1) ViL引导的目标初始化：利用ViL模型为目标域数据生成初始的伪标签，作为目标模型学习的起点。2) 双重监督信号融合：将ViL模型提供的多模态监督信号与人工标注的数据监督信号进行融合，形成双重监督信号。3) 双向蒸馏机制：通过双向蒸馏，目标模型从ViL模型和人工标注数据中学习知识，同时ViL模型也从目标模型中学习目标域的特定知识，实现知识的互换和提升。

关键创新：论文的关键创新在于提出了双重主动学习框架，该框架能够有效地融合ViL模型提供的多模态信息和人工标注的数据监督，形成更强的监督信号。此外，双向蒸馏机制能够促进目标模型与ViL模型之间的知识互换，进一步提升模型的性能。与现有方法相比，DAM能够更充分地利用ViL模型提供的多模态信息，从而在SFADA任务中取得更好的效果。

关键设计：DAM框架的关键设计包括：1) ViL模型的选择：选择合适的ViL模型，例如CLIP，以提供高质量的多模态信息。2) 伪标签生成策略：设计有效的伪标签生成策略，以确保伪标签的准确性和可靠性。3) 双向蒸馏损失函数：设计合适的双向蒸馏损失函数，以促进目标模型与ViL模型之间的知识互换。4) 主动学习策略：选择合适的主动学习策略，例如不确定性采样，以选择最具信息量的样本进行人工标注。

📊 实验亮点

实验结果表明，DAM在多个SFADA基准测试中取得了state-of-the-art的性能。例如，在Office-Home数据集上，DAM相比现有最佳方法提升了5%以上的准确率。此外，DAM在不同的主动学习策略下均表现出优越的性能，证明了其鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于各种无源域自适应场景，例如：医疗影像诊断、自动驾驶、机器人导航等。在这些场景中，获取大量标注数据成本高昂，而利用预训练的ViL模型可以有效降低标注成本，提升模型在目标域的性能。该方法具有重要的实际应用价值和广阔的应用前景。

📄 摘要（原文）

Source-free active domain adaptation (SFADA) enhances knowledge transfer from a source model to an unlabeled target domain using limited manual labels selected via active learning. While recent domain adaptation studies have introduced Vision-and-Language (ViL) models to improve pseudo-label quality or feature alignment, they often treat ViL-based and data supervision as separate sources, lacking effective fusion. To overcome this limitation, we propose Dual Active learning with Multimodal (DAM) foundation model, a novel framework that integrates multimodal supervision from a ViL model to complement sparse human annotations, thereby forming a dual supervisory signal. DAM initializes stable ViL-guided targets and employs a bidirectional distillation mechanism to foster mutual knowledge exchange between the target model and the dual supervisions during iterative adaptation. Extensive experiments demonstrate that DAM consistently outperforms existing methods and sets a new state-of-the-art across multiple SFADA benchmarks and active learning strategies.

DAM: Dual Active Learning with Multimodal Foundation Model for Source-Free Domain Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册