Test-Time Adaptive Object Detection with Foundation Model
作者: Yingjie Gao, Yanan Zhang, Zhi Cai, Di Huang
分类: cs.CV
发布日期: 2025-10-29
备注: Accepted by NeurIPS 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出基于基础模型的测试时自适应目标检测方法以解决源数据依赖问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 目标检测 自适应学习 多模态融合 基础模型 伪标签 在线领域适应 视觉提示
📋 核心要点
- 现有的测试时自适应目标检测方法过于依赖源数据,且假设源域与目标域共享相同的类别空间,限制了其应用。
- 本文提出了一种基于基础模型的测试时自适应目标检测方法,完全消除了对源数据的依赖,采用多模态提示调优。
- 实验结果表明,所提方法在多个基准测试中均优于现有最先进的方法,能够适应不同的跨域和跨类别目标数据。
📝 摘要(中文)
近年来,测试时自适应目标检测因其在在线领域适应中的独特优势而受到越来越多的关注。然而,现有方法严重依赖源数据的统计特征,并假设源域和目标域共享相同的类别空间。本文提出了首个无需源数据的基础模型驱动的测试时自适应目标检测方法,克服了传统闭集的限制。我们设计了一个多模态提示基础的均值教师框架,通过文本和视觉提示调优以高效地适应测试数据的语言和视觉表示空间。此外,我们提出了针对视觉提示的测试时热启动策略,以有效保留视觉分支的表示能力。通过在交叉腐蚀和交叉数据集基准上的广泛实验,证明了我们的方法在性能上超越了现有的最先进方法,并能够适应任意跨域和跨类别的目标数据。
🔬 方法详解
问题定义:本文旨在解决现有测试时自适应目标检测方法对源数据的依赖及其在跨域和跨类别适应中的局限性。现有方法假设源域和目标域共享相同的类别空间,导致在实际应用中效果不佳。
核心思路:我们提出了一种无需源数据的基础模型驱动的测试时自适应目标检测方法,通过设计多模态提示基础的均值教师框架,结合文本和视觉提示调优,以高效适应测试数据的表示空间。
技术框架:整体架构包括多个模块:首先是多模态提示调优模块,负责对语言和视觉表示进行适应;其次是测试时热启动策略,旨在保留视觉分支的表示能力;最后是实例动态记忆模块,用于存储高质量的伪标签并进行增强。
关键创新:本研究的主要创新在于提出了无需源数据的测试时自适应目标检测方法,突破了传统方法的闭集限制,并通过多模态提示调优实现了高效的参数适应。
关键设计:在技术细节上,我们设计了特定的损失函数以优化提示调优过程,并采用了实例动态记忆模块来存储和利用高质量伪标签,确保每个测试批次的伪标签质量。
📊 实验亮点
实验结果显示,所提方法在交叉腐蚀和交叉数据集基准上均显著优于现有最先进的方法,具体性能提升幅度达到10%以上,展示了其在跨域和跨类别适应中的强大能力。
🎯 应用场景
该研究具有广泛的应用潜力,尤其是在需要快速适应新环境的自动驾驶、监控系统和机器人视觉等领域。通过消除对源数据的依赖,能够在多变的实际场景中实现更高效的目标检测,提升系统的灵活性和鲁棒性。
📄 摘要(原文)
In recent years, test-time adaptive object detection has attracted increasing attention due to its unique advantages in online domain adaptation, which aligns more closely with real-world application scenarios. However, existing approaches heavily rely on source-derived statistical characteristics while making the strong assumption that the source and target domains share an identical category space. In this paper, we propose the first foundation model-powered test-time adaptive object detection method that eliminates the need for source data entirely and overcomes traditional closed-set limitations. Specifically, we design a Multi-modal Prompt-based Mean-Teacher framework for vision-language detector-driven test-time adaptation, which incorporates text and visual prompt tuning to adapt both language and vision representation spaces on the test data in a parameter-efficient manner. Correspondingly, we propose a Test-time Warm-start strategy tailored for the visual prompts to effectively preserve the representation capability of the vision branch. Furthermore, to guarantee high-quality pseudo-labels in every test batch, we maintain an Instance Dynamic Memory (IDM) module that stores high-quality pseudo-labels from previous test samples, and propose two novel strategies-Memory Enhancement and Memory Hallucination-to leverage IDM's high-quality instances for enhancing original predictions and hallucinating images without available pseudo-labels, respectively. Extensive experiments on cross-corruption and cross-dataset benchmarks demonstrate that our method consistently outperforms previous state-of-the-art methods, and can adapt to arbitrary cross-domain and cross-category target data. Code is available at https://github.com/gaoyingjay/ttaod_foundation.