Towards a Generalizable Fusion Architecture for Multimodal Object Detection

📄 arXiv: 2510.17078v1 📥 PDF

作者: Jad Berjawi, Yoann Dupas, Christophe C'erin

分类: cs.CV

发布日期: 2025-10-20

备注: 8 pages, 8 figures, accepted at ICCV 2025 MIRA Workshop


💡 一句话要点

提出FMCAF架构,提升多模态目标检测的泛化能力与鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 目标检测 交叉注意力 频域滤波 红外图像 RGB图像 泛化能力

📋 核心要点

  1. 现有方法在多模态目标检测中泛化性不足,依赖特定数据集调优,限制了其在不同场景下的应用。
  2. FMCAF通过频域滤波抑制冗余特征,并利用交叉注意力机制促进模态间信息交互,提升融合效果。
  3. 实验表明,FMCAF在LLVIP和VEDAI数据集上均优于传统融合方法,验证了其泛化性和有效性。

📝 摘要(中文)

本文提出了一种名为过滤多模态交叉注意力融合(FMCAF)的预处理架构,旨在增强RGB和红外(IR)图像融合的多模态目标检测性能。FMCAF结合了频域滤波模块(Freq-Filter)来抑制冗余频谱特征,以及基于交叉注意力的融合模块(MCAF)来改善模态间特征共享。与针对特定数据集的方法不同,FMCAF致力于提高泛化能力,在不同的多模态挑战中提升性能,而无需针对特定数据集进行调整。在LLVIP(低光行人检测)和VEDAI(航空车辆检测)数据集上,FMCAF优于传统融合(拼接)方法,在VEDAI上实现了+13.9%的mAP@50,在LLVIP上实现了+1.1%的mAP@50。这些结果表明FMCAF有潜力成为未来检测流程中鲁棒多模态融合的灵活基础。

🔬 方法详解

问题定义:多模态目标检测旨在利用来自不同传感器(如RGB和红外)的互补信息,提高在复杂环境下的检测性能。然而,现有方法往往针对特定数据集设计,缺乏泛化能力,需要在新数据集上进行大量调优,限制了其应用范围。因此,如何设计一种通用的多模态融合架构,使其能够在不同数据集上取得良好性能,是一个重要的研究问题。

核心思路:本文的核心思路是通过预处理来增强多模态特征的融合效果。具体来说,首先利用频域滤波去除冗余的频谱特征,减少模态间的干扰;然后,利用交叉注意力机制,显式地建模不同模态之间的依赖关系,促进特征的有效融合。这种方法旨在提高特征的质量和相关性,从而提升检测器的性能和泛化能力。

技术框架:FMCAF架构主要包含两个模块:频域滤波模块(Freq-Filter)和交叉注意力融合模块(MCAF)。首先,RGB和IR图像分别经过Freq-Filter模块,该模块将图像转换到频域,并对特定频率的成分进行滤波,以去除冗余信息。然后,滤波后的特征被输入到MCAF模块,该模块利用交叉注意力机制,计算RGB和IR特征之间的相关性,并根据相关性权重对特征进行融合。最后,融合后的特征被输入到目标检测器中进行目标检测。

关键创新:本文的关键创新在于提出了一个通用的多模态融合架构FMCAF,该架构不依赖于特定数据集的调优,能够在不同的多模态目标检测任务中取得良好的性能。与传统的拼接融合方法相比,FMCAF能够更好地利用不同模态之间的互补信息,并抑制冗余信息,从而提高检测器的鲁棒性和泛化能力。

关键设计:Freq-Filter模块使用离散余弦变换(DCT)将图像转换到频域,并根据经验选择合适的频率范围进行滤波。MCAF模块使用多头注意力机制,以捕捉不同模态之间的复杂关系。损失函数采用标准的交叉熵损失函数和边界框回归损失函数。网络结构基于常用的目标检测框架,如Faster R-CNN或YOLO。

📊 实验亮点

FMCAF在VEDAI数据集上实现了+13.9%的mAP@50提升,在LLVIP数据集上实现了+1.1%的mAP@50提升,显著优于传统的拼接融合方法。这表明FMCAF能够有效地利用多模态信息,提高目标检测的性能和泛化能力。尤其在VEDAI数据集上大幅提升,证明了该方法在复杂场景下的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、安防监控、机器人等领域。在自动驾驶中,可以利用RGB和红外图像融合,提高在夜间或恶劣天气条件下的目标检测能力。在安防监控中,可以利用可见光和热成像融合,提高对异常行为的检测能力。在机器人领域,可以利用多种传感器数据融合,提高机器人对环境的感知能力。

📄 摘要(原文)

Multimodal object detection improves robustness in chal- lenging conditions by leveraging complementary cues from multiple sensor modalities. We introduce Filtered Multi- Modal Cross Attention Fusion (FMCAF), a preprocess- ing architecture designed to enhance the fusion of RGB and infrared (IR) inputs. FMCAF combines a frequency- domain filtering block (Freq-Filter) to suppress redun- dant spectral features with a cross-attention-based fusion module (MCAF) to improve intermodal feature sharing. Unlike approaches tailored to specific datasets, FMCAF aims for generalizability, improving performance across different multimodal challenges without requiring dataset- specific tuning. On LLVIP (low-light pedestrian detec- tion) and VEDAI (aerial vehicle detection), FMCAF outper- forms traditional fusion (concatenation), achieving +13.9% mAP@50 on VEDAI and +1.1% on LLVIP. These results support the potential of FMCAF as a flexible foundation for robust multimodal fusion in future detection pipelines.