Towards a Generalizable Fusion Architecture for Multimodal Object Detection

作者: Jad Berjawi, Yoann Dupas, Christophe C'erin

分类: cs.CV

发布日期: 2025-10-20

备注: 8 pages, 8 figures, accepted at ICCV 2025 MIRA Workshop

💡 一句话要点

提出FMCAF架构，提升多模态目标检测的泛化能力与鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 目标检测 交叉注意力 频域滤波 红外图像 RGB图像 泛化能力

📋 核心要点

现有方法在多模态目标检测中泛化性不足，依赖特定数据集调优，限制了其在不同场景下的应用。
FMCAF通过频域滤波抑制冗余特征，并利用交叉注意力机制促进模态间信息交互，提升融合效果。
实验表明，FMCAF在LLVIP和VEDAI数据集上均优于传统融合方法，验证了其泛化性和有效性。

📝 摘要（中文）

本文提出了一种名为过滤多模态交叉注意力融合(FMCAF)的预处理架构，旨在增强RGB和红外(IR)图像融合的多模态目标检测性能。FMCAF结合了频域滤波模块(Freq-Filter)来抑制冗余频谱特征，以及基于交叉注意力的融合模块(MCAF)来改善模态间特征共享。与针对特定数据集的方法不同，FMCAF致力于提高泛化能力，在不同的多模态挑战中提升性能，而无需针对特定数据集进行调整。在LLVIP(低光行人检测)和VEDAI(航空车辆检测)数据集上，FMCAF优于传统融合(拼接)方法，在VEDAI上实现了+13.9%的mAP@50，在LLVIP上实现了+1.1%的mAP@50。这些结果表明FMCAF有潜力成为未来检测流程中鲁棒多模态融合的灵活基础。

🔬 方法详解

问题定义：多模态目标检测旨在利用来自不同传感器（如RGB和红外）的互补信息，提高在复杂环境下的检测性能。然而，现有方法往往针对特定数据集设计，缺乏泛化能力，需要在新数据集上进行大量调优，限制了其应用范围。因此，如何设计一种通用的多模态融合架构，使其能够在不同数据集上取得良好性能，是一个重要的研究问题。

核心思路：本文的核心思路是通过预处理来增强多模态特征的融合效果。具体来说，首先利用频域滤波去除冗余的频谱特征，减少模态间的干扰；然后，利用交叉注意力机制，显式地建模不同模态之间的依赖关系，促进特征的有效融合。这种方法旨在提高特征的质量和相关性，从而提升检测器的性能和泛化能力。

技术框架：FMCAF架构主要包含两个模块：频域滤波模块(Freq-Filter)和交叉注意力融合模块(MCAF)。首先，RGB和IR图像分别经过Freq-Filter模块，该模块将图像转换到频域，并对特定频率的成分进行滤波，以去除冗余信息。然后，滤波后的特征被输入到MCAF模块，该模块利用交叉注意力机制，计算RGB和IR特征之间的相关性，并根据相关性权重对特征进行融合。最后，融合后的特征被输入到目标检测器中进行目标检测。

关键创新：本文的关键创新在于提出了一个通用的多模态融合架构FMCAF，该架构不依赖于特定数据集的调优，能够在不同的多模态目标检测任务中取得良好的性能。与传统的拼接融合方法相比，FMCAF能够更好地利用不同模态之间的互补信息，并抑制冗余信息，从而提高检测器的鲁棒性和泛化能力。

关键设计：Freq-Filter模块使用离散余弦变换(DCT)将图像转换到频域，并根据经验选择合适的频率范围进行滤波。MCAF模块使用多头注意力机制，以捕捉不同模态之间的复杂关系。损失函数采用标准的交叉熵损失函数和边界框回归损失函数。网络结构基于常用的目标检测框架，如Faster R-CNN或YOLO。

📊 实验亮点

FMCAF在VEDAI数据集上实现了+13.9%的mAP@50提升，在LLVIP数据集上实现了+1.1%的mAP@50提升，显著优于传统的拼接融合方法。这表明FMCAF能够有效地利用多模态信息，提高目标检测的性能和泛化能力。尤其在VEDAI数据集上大幅提升，证明了该方法在复杂场景下的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、安防监控、机器人等领域。在自动驾驶中，可以利用RGB和红外图像融合，提高在夜间或恶劣天气条件下的目标检测能力。在安防监控中，可以利用可见光和热成像融合，提高对异常行为的检测能力。在机器人领域，可以利用多种传感器数据融合，提高机器人对环境的感知能力。

📄 摘要（原文）

Multimodal object detection improves robustness in chal- lenging conditions by leveraging complementary cues from multiple sensor modalities. We introduce Filtered Multi- Modal Cross Attention Fusion (FMCAF), a preprocess- ing architecture designed to enhance the fusion of RGB and infrared (IR) inputs. FMCAF combines a frequency- domain filtering block (Freq-Filter) to suppress redun- dant spectral features with a cross-attention-based fusion module (MCAF) to improve intermodal feature sharing. Unlike approaches tailored to specific datasets, FMCAF aims for generalizability, improving performance across different multimodal challenges without requiring dataset- specific tuning. On LLVIP (low-light pedestrian detec- tion) and VEDAI (aerial vehicle detection), FMCAF outper- forms traditional fusion (concatenation), achieving +13.9% mAP@50 on VEDAI and +1.1% on LLVIP. These results support the potential of FMCAF as a flexible foundation for robust multimodal fusion in future detection pipelines.

Towards a Generalizable Fusion Architecture for Multimodal Object Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册