Embodied Domain Adaptation for Object Detection

📄 arXiv: 2506.21860v1 📥 PDF

作者: Xiangyu Shi, Yanyuan Qiao, Lingqiao Liu, Feras Dayoub

分类: cs.RO, cs.CV

发布日期: 2025-06-27

备注: Accepted by IROS 2025


💡 一句话要点

提出源无关领域适应方法以解决室内物体检测问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 源无关领域适应 物体检测 开放词汇检测 对比学习 移动机器人 动态环境

📋 核心要点

  1. 现有的闭集物体检测方法在应对真实环境中的多样化物体和动态条件时表现不佳,难以满足实际应用需求。
  2. 本文提出了一种源无关领域适应方法,利用时间聚类和对比学习等技术,在不依赖源数据的情况下优化物体检测模型。
  3. 实验结果表明,所提方法在零样本检测性能上显著提升,能够有效适应室内环境的动态变化。

📝 摘要(中文)

移动机器人依赖物体检测器进行室内环境的感知和物体定位。然而,标准的闭集方法在真实家庭和实验室中面临多样化物体和动态条件的挑战。开放词汇物体检测(OVOD)虽然超越了固定标签,但在室内环境的领域转移中仍然存在困难。本文提出了一种源无关领域适应(SFDA)方法,能够在不访问源数据的情况下调整预训练模型。我们通过时间聚类精炼伪标签,采用多尺度阈值融合,并应用对比学习的平均教师框架。我们的物体检测的具身领域适应(EDAOD)基准评估了在照明、布局和物体多样性等顺序变化下的适应性。实验结果显示,在零样本检测性能上有显著提升,并能灵活适应动态室内条件。

🔬 方法详解

问题定义:本文旨在解决移动机器人在动态室内环境中物体检测的领域适应问题。现有的闭集方法无法有效处理多样化物体和环境变化,导致检测性能下降。

核心思路:提出的源无关领域适应(SFDA)方法通过不依赖源数据的方式,利用时间聚类和对比学习来优化伪标签,从而提升模型在新环境中的适应能力。

技术框架:整体架构包括伪标签生成、时间聚类、对比学习和多尺度阈值融合等模块。首先,通过时间聚类精炼伪标签,然后结合对比学习和平均教师框架进行模型训练,最后进行多尺度融合以提高检测精度。

关键创新:最重要的创新在于提出了源无关的领域适应策略,能够在没有源数据的情况下进行有效的模型调整,这与传统方法依赖源数据的方式有本质区别。

关键设计:在技术细节上,采用了时间聚类算法来精炼伪标签,设计了多尺度阈值融合策略,并在对比学习中引入了平均教师框架,以增强模型的鲁棒性和适应性。

📊 实验亮点

实验结果显示,所提方法在零样本检测任务中,相较于基线模型性能提升显著,具体提升幅度达到XX%,有效验证了方法在动态室内环境中的适应能力。

🎯 应用场景

该研究的潜在应用领域包括智能家居、服务机器人和工业自动化等场景。通过提升物体检测的准确性和适应性,能够显著提高机器人在复杂环境中的自主导航和任务执行能力,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Mobile robots rely on object detectors for perception and object localization in indoor environments. However, standard closed-set methods struggle to handle the diverse objects and dynamic conditions encountered in real homes and labs. Open-vocabulary object detection (OVOD), driven by Vision Language Models (VLMs), extends beyond fixed labels but still struggles with domain shifts in indoor environments. We introduce a Source-Free Domain Adaptation (SFDA) approach that adapts a pre-trained model without accessing source data. We refine pseudo labels via temporal clustering, employ multi-scale threshold fusion, and apply a Mean Teacher framework with contrastive learning. Our Embodied Domain Adaptation for Object Detection (EDAOD) benchmark evaluates adaptation under sequential changes in lighting, layout, and object diversity. Our experiments show significant gains in zero-shot detection performance and flexible adaptation to dynamic indoor conditions.