Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model
作者: Yulong Shi, Shijie Li, Ziyi Li, Lin Qi
分类: cs.CV
发布日期: 2026-03-05
备注: Accepted by IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026)
🔗 代码/项目: GITHUB
💡 一句话要点
Tell2Adapt:利用视觉基础模型实现无源域自适应的统一框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无源域自适应 视觉基础模型 医学图像分割 提示工程 上下文感知 视觉合理性 领域泛化
📋 核心要点
- 现有SFUDA方法难以应对多模态、多目标的复杂临床环境,泛化能力不足,限制了实际应用。
- Tell2Adapt利用视觉基础模型(VFM)的通用知识,通过提示工程和视觉合理性细化,实现高效的领域自适应。
- 在10个域自适应方向和22个解剖学目标上的广泛实验表明,Tell2Adapt显著优于现有方法,达到SOTA水平。
📝 摘要(中文)
无源域无监督域自适应(SFUDA)对于在不同的临床环境中部署深度学习模型至关重要。然而,现有的方法通常是为低差异、特定领域偏移而设计的,无法推广到统一的、多模态和多目标的框架中,这给实际应用带来了主要障碍。为了克服这个问题,我们提出了Tell2Adapt,一种新颖的SFUDA框架,它利用了视觉基础模型(VFM)的广泛、可泛化的知识。我们的方法通过上下文感知提示正则化(CAPR)来确保高保真度的VFM提示,该正则化能够将不同的文本提示稳健地转换为规范指令。这使得能够生成高质量的伪标签,从而有效地将轻量级学生模型适应到目标域。为了保证临床可靠性,该框架结合了视觉合理性细化(VPR),它利用VFM的解剖学知识,将适应模型的预测重新定位到目标图像的低级视觉特征中,从而有效地消除噪声和误报。我们进行了迄今为止最广泛的SFUDA评估之一,在10个域自适应方向和22个解剖学目标(包括大脑、心脏、息肉和腹部目标)上验证了我们的框架。我们的结果表明,Tell2Adapt始终优于现有方法,在医学图像分割的统一SFUDA框架中实现了SOTA。
🔬 方法详解
问题定义:论文旨在解决无源域无监督域自适应(SFUDA)在医学图像分割领域中,现有方法难以泛化到多模态、多目标场景的问题。现有方法通常针对特定领域偏移设计,无法有效利用大规模预训练模型,导致在复杂临床环境中性能下降。
核心思路:论文的核心思路是利用视觉基础模型(VFM)的通用知识,通过文本提示引导模型学习目标域的特征表示,并利用VFM的先验知识进行视觉合理性约束,从而提高模型在目标域的分割性能。通过上下文感知提示正则化(CAPR)保证提示的质量,并通过视觉合理性细化(VPR)消除噪声和误报。
技术框架:Tell2Adapt框架主要包含以下几个阶段:1) 利用文本提示生成模块,将文本描述转化为VFM的输入提示;2) 通过上下文感知提示正则化(CAPR)模块,保证提示的质量和一致性;3) 利用VFM生成目标域图像的伪标签;4) 使用生成的伪标签训练轻量级学生模型;5) 通过视觉合理性细化(VPR)模块,利用VFM的解剖学知识对学生模型的预测结果进行修正。
关键创新:论文的关键创新在于:1) 提出了一个统一的SFUDA框架,可以处理多模态、多目标的医学图像分割任务;2) 引入了上下文感知提示正则化(CAPR)模块,有效提高了VFM提示的质量和鲁棒性;3) 提出了视觉合理性细化(VPR)模块,利用VFM的先验知识对分割结果进行修正,提高了分割精度。
关键设计:CAPR模块通过引入上下文信息,对文本提示进行正则化,保证提示的一致性和准确性。VPR模块利用VFM提取图像的低级视觉特征,并与学生模型的预测结果进行融合,从而消除噪声和误报。损失函数包括分割损失和正则化损失,用于优化学生模型的分割性能和提示的质量。
📊 实验亮点
Tell2Adapt在10个域自适应方向和22个解剖学目标上进行了广泛评估,包括脑部、心脏、息肉和腹部器官。实验结果表明,Tell2Adapt在所有评估指标上均优于现有SOTA方法,证明了其在统一SFUDA框架中的有效性。例如,在息肉分割任务上,Tell2Adapt的Dice系数比现有方法提高了5%以上。
🎯 应用场景
该研究成果可应用于多种医学图像分割任务,例如脑部、心脏、息肉和腹部器官的分割。通过利用视觉基础模型的通用知识,可以减少对大量标注数据的依赖,降低模型部署成本,并提高模型在不同临床环境中的泛化能力。未来可进一步扩展到其他医学影像模态和疾病诊断任务。
📄 摘要(原文)
Source Free Unsupervised Domain Adaptation (SFUDA) is critical for deploying deep learning models across diverse clinical settings. However, existing methods are typically designed for low-gap, specific domain shifts and cannot generalize into a unified, multi-modalities, and multi-target framework, which presents a major barrier to real-world application. To overcome this issue, we introduce Tell2Adapt, a novel SFUDA framework that harnesses the vast, generalizable knowledge of the Vision Foundation Model (VFM). Our approach ensures high-fidelity VFM prompts through Context-Aware Prompts Regularization (CAPR), which robustly translates varied text prompts into canonical instructions. This enables the generation of high-quality pseudo-labels for efficiently adapting the lightweight student model to target domain. To guarantee clinical reliability, the framework incorporates Visual Plausibility Refinement (VPR), which leverages the VFM's anatomical knowledge to re-ground the adapted model's predictions in target image's low-level visual features, effectively removing noise and false positives. We conduct one of the most extensive SFUDA evaluations to date, validating our framework across 10 domain adaptation directions and 22 anatomical targets, including brain, cardiac, polyp, and abdominal targets. Our results demonstrate that Tell2Adapt consistently outperforms existing approaches, achieving SOTA for a unified SFUDA framework in medical image segmentation. Code are avaliable at https://github.com/derekshiii/Tell2Adapt.