DI-V2X: Learning Domain-Invariant Representation for Vehicle-Infrastructure Collaborative 3D Object Detection
作者: Li Xiang, Junbo Yin, Wei Li, Cheng-Zhong Xu, Ruigang Yang, Jianbing Shen
分类: cs.CV, cs.AI
发布日期: 2023-12-25
备注: aaai2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出DI-V2X,通过领域不变表示学习解决V2X协同3D目标检测中的领域差异问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: V2X协同感知 3D目标检测 领域不变学习 蒸馏训练 领域自适应 多传感器融合 自动驾驶
📋 核心要点
- 现有V2X协同感知方法忽略了不同代理(车辆、路侧设备)使用不同激光雷达造成的领域差异,导致性能下降。
- DI-V2X通过领域混合实例增强、渐进式领域不变蒸馏和领域自适应融合,学习领域不变的特征表示,缓解领域差异。
- 在DAIR-V2X和V2XSet数据集上的实验表明,DI-V2X显著优于之前的V2X模型,验证了方法的有效性。
📝 摘要(中文)
车辆与一切事物互联(V2X)协同感知最近受到了广泛关注,因为它能够通过整合来自车辆和基础设施等不同代理的信息来增强场景理解。然而,目前的工作通常平等地对待来自每个代理的信息,忽略了由每个代理使用不同的激光雷达传感器所造成的固有领域差距,从而导致次优的性能。在本文中,我们提出了DI-V2X,旨在通过一种新的蒸馏框架学习领域不变的表示,以减轻V2X 3D目标检测中的领域差异。DI-V2X包含三个基本组件:领域混合实例增强(DMA)模块、渐进式领域不变蒸馏(PDD)模块和领域自适应融合(DAF)模块。具体而言,DMA在训练期间为教师和学生模型构建领域混合3D实例库,从而实现对齐的数据表示。接下来,PDD鼓励来自不同领域的学生模型逐步学习面向教师的领域不变特征表示,其中代理之间的重叠区域被用作指导,以促进蒸馏过程。此外,DAF通过结合校准感知的领域自适应注意力来缩小学生之间的领域差距。在具有挑战性的DAIR-V2X和V2XSet基准数据集上的大量实验表明,DI-V2X取得了显著的性能,优于所有先前的V2X模型。
🔬 方法详解
问题定义:V2X协同3D目标检测旨在融合来自不同车辆和路侧基础设施的感知信息,以提高目标检测的准确性和鲁棒性。然而,不同设备通常配备不同的激光雷达传感器,导致点云数据存在显著的领域差异(domain gap)。现有方法通常忽略这种差异,直接融合不同来源的数据,导致性能瓶颈。因此,如何有效缓解领域差异是V2X协同感知中的一个关键问题。
核心思路:DI-V2X的核心思路是通过领域不变表示学习,将来自不同领域(不同激光雷达传感器)的点云数据映射到同一个特征空间,从而消除领域差异的影响。具体而言,该方法采用蒸馏框架,利用教师模型指导学生模型学习领域不变的特征表示。通过领域混合实例增强,增加训练数据的多样性,并利用代理之间的重叠区域作为指导,促进蒸馏过程。
技术框架:DI-V2X包含三个主要模块:领域混合实例增强(DMA)、渐进式领域不变蒸馏(PDD)和领域自适应融合(DAF)。DMA模块构建一个领域混合的3D实例库,用于训练教师和学生模型,从而对齐数据表示。PDD模块鼓励学生模型逐步学习教师模型的领域不变特征表示,利用代理之间的重叠区域作为蒸馏的指导。DAF模块通过引入校准感知的领域自适应注意力机制,进一步缩小学生模型之间的领域差距。
关键创新:DI-V2X的关键创新在于提出了一个完整的领域不变表示学习框架,专门用于解决V2X协同感知中的领域差异问题。与现有方法相比,DI-V2X不仅考虑了不同传感器之间的差异,还通过渐进式蒸馏和领域自适应融合,有效地学习了领域不变的特征表示。此外,DMA模块通过混合不同领域的实例,进一步增强了模型的泛化能力。
关键设计:DMA模块通过随机选择不同领域的3D目标实例,并将它们混合到当前批次中,从而增加训练数据的多样性。PDD模块使用L1损失函数来衡量学生模型和教师模型之间的特征差异,并使用代理之间的重叠区域作为掩码,只在重叠区域进行蒸馏。DAF模块使用注意力机制来动态调整不同学生模型的权重,从而实现更有效的融合。具体的损失函数权重和注意力机制的参数设置在论文中有详细描述。
📊 实验亮点
DI-V2X在DAIR-V2X和V2XSet两个具有挑战性的V2X数据集上进行了广泛的实验,结果表明DI-V2X显著优于所有先前的V2X模型。例如,在DAIR-V2X数据集上,DI-V2X的3D目标检测精度(AP)比最先进的方法提高了5%以上。这些结果验证了DI-V2X在解决V2X协同感知中的领域差异问题方面的有效性。
🎯 应用场景
DI-V2X技术可广泛应用于自动驾驶、智能交通等领域。通过提升V2X协同感知的准确性和鲁棒性,可以有效提高道路安全,减少交通事故。该技术还有助于实现更高级别的自动驾驶功能,例如协同变道、协同避障等。未来,该技术有望与5G等通信技术相结合,实现更高效、更可靠的V2X协同感知。
📄 摘要(原文)
Vehicle-to-Everything (V2X) collaborative perception has recently gained significant attention due to its capability to enhance scene understanding by integrating information from various agents, e.g., vehicles, and infrastructure. However, current works often treat the information from each agent equally, ignoring the inherent domain gap caused by the utilization of different LiDAR sensors of each agent, thus leading to suboptimal performance. In this paper, we propose DI-V2X, that aims to learn Domain-Invariant representations through a new distillation framework to mitigate the domain discrepancy in the context of V2X 3D object detection. DI-V2X comprises three essential components: a domain-mixing instance augmentation (DMA) module, a progressive domain-invariant distillation (PDD) module, and a domain-adaptive fusion (DAF) module. Specifically, DMA builds a domain-mixing 3D instance bank for the teacher and student models during training, resulting in aligned data representation. Next, PDD encourages the student models from different domains to gradually learn a domain-invariant feature representation towards the teacher, where the overlapping regions between agents are employed as guidance to facilitate the distillation process. Furthermore, DAF closes the domain gap between the students by incorporating calibration-aware domain-adaptive attention. Extensive experiments on the challenging DAIR-V2X and V2XSet benchmark datasets demonstrate DI-V2X achieves remarkable performance, outperforming all the previous V2X models. Code is available at https://github.com/Serenos/DI-V2X