Self-supervised Multiplex Consensus Mamba for General Image Fusion

作者: Yingying Wang, Rongjin Zhuang, Hui Zheng, Xuanhua He, Ke Cao, Xiaotong Tu, Xinghao Ding

分类: cs.CV

发布日期: 2025-12-24

备注: Accepted by AAAI 2026, 9 pages, 4 figures

💡 一句话要点

提出SMC-Mamba框架，用于通用图像融合，提升多种融合任务性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图像融合 Mamba 自监督学习 跨模态融合 对比学习 通用图像融合 多模态信息整合

📋 核心要点

现有图像融合方法难以兼顾多种任务，且在提升性能的同时往往会增加模型复杂度。
提出SMC-Mamba框架，通过模态无关特征增强、多路共识跨模态Mamba模块和双层自监督对比学习损失，实现高效的通用图像融合。
实验结果表明，该方法在多种图像融合任务和下游视觉任务中均优于现有最佳算法。

📝 摘要（中文）

图像融合旨在整合来自不同模态的互补信息，生成高质量的融合图像，从而增强诸如目标检测和语义分割等下游任务。与主要关注整合模态间信息的特定任务技术不同，通用图像融合需要在不增加复杂性的前提下，处理广泛的任务并提高性能。为了实现这一目标，我们提出了SMC-Mamba，一个用于通用图像融合的自监督多路共识Mamba框架。具体而言，模态无关特征增强（MAFE）模块通过自适应门控保留精细细节，并通过空间-通道和频率-旋转扫描增强全局表示。多路共识跨模态Mamba（MCCM）模块实现了专家之间的动态协作，达成共识以有效地整合来自多个模态的互补信息。MCCM中的跨模态扫描进一步加强了模态间的特征交互，促进了来自两个来源的关键信息的无缝整合。此外，我们引入了一种双层自监督对比学习损失（BSCL），它在不增加计算开销的情况下保留了高频信息，同时提高了下游任务的性能。大量实验表明，我们的方法在红外-可见光、医学、多焦点和多曝光融合等任务以及下游视觉任务中，优于最先进的图像融合算法。

🔬 方法详解

问题定义：现有图像融合方法通常针对特定任务设计，缺乏通用性，难以同时处理多种融合任务。此外，为了提升融合性能，现有方法往往会增加模型复杂度，导致计算开销增大。因此，如何设计一种既能处理多种融合任务，又能保持较低复杂度的通用图像融合方法是一个挑战。

核心思路：论文的核心思路是利用Mamba架构的序列建模能力，结合自监督学习，构建一个能够有效整合多模态信息的通用图像融合框架。通过模态无关的特征增强模块提取各模态的有效信息，并利用多路共识跨模态Mamba模块实现模态间的动态交互和信息融合。同时，引入双层自监督对比学习损失，以保留高频信息并提升下游任务性能。

技术框架：SMC-Mamba框架主要包含三个模块：模态无关特征增强（MAFE）模块、多路共识跨模态Mamba（MCCM）模块和双层自监督对比学习损失（BSCL）。首先，MAFE模块用于提取各模态的特征，并增强特征的表达能力。然后，MCCM模块利用Mamba架构进行跨模态特征融合，实现模态间的信息交互。最后，BSCL用于优化模型，提升融合图像的质量和下游任务的性能。

关键创新：该论文的关键创新在于以下几点：1) 提出了模态无关的特征增强模块，能够有效提取各模态的特征，并增强特征的表达能力。2) 提出了多路共识跨模态Mamba模块，利用Mamba架构进行跨模态特征融合，实现模态间的动态交互和信息融合。3) 提出了双层自监督对比学习损失，能够保留高频信息，并提升下游任务的性能。与现有方法相比，该方法具有更强的通用性和更高的性能。

关键设计：MAFE模块采用自适应门控机制来保留精细细节，并使用空间-通道和频率-旋转扫描来增强全局表示。MCCM模块利用多个专家进行动态协作，并通过跨模态扫描进一步加强模态间的特征交互。BSCL损失函数包含图像层面的对比学习和特征层面的对比学习，以保留高频信息并提升下游任务性能。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SMC-Mamba在红外-可见光、医学、多焦点和多曝光融合等任务中均取得了优于现有SOTA算法的性能。例如，在红外-可见光图像融合任务中，该方法在多个指标上均取得了显著提升，并且在下游视觉任务中也表现出优越的性能。此外，该方法在保持较低复杂度的同时，能够有效保留高频信息，提升融合图像的质量。

🎯 应用场景

该研究成果可广泛应用于红外-可见光图像融合、医学图像融合、多焦点图像融合和多曝光图像融合等领域。高质量的融合图像能够提升目标检测、语义分割等下游任务的性能，从而在安防监控、医疗诊断、遥感图像分析等领域具有重要的应用价值和潜力。未来，该方法有望进一步扩展到更多模态的图像融合任务中。

📄 摘要（原文）

Image fusion integrates complementary information from different modalities to generate high-quality fused images, thereby enhancing downstream tasks such as object detection and semantic segmentation. Unlike task-specific techniques that primarily focus on consolidating inter-modal information, general image fusion needs to address a wide range of tasks while improving performance without increasing complexity. To achieve this, we propose SMC-Mamba, a Self-supervised Multiplex Consensus Mamba framework for general image fusion. Specifically, the Modality-Agnostic Feature Enhancement (MAFE) module preserves fine details through adaptive gating and enhances global representations via spatial-channel and frequency-rotational scanning. The Multiplex Consensus Cross-modal Mamba (MCCM) module enables dynamic collaboration among experts, reaching a consensus to efficiently integrate complementary information from multiple modalities. The cross-modal scanning within MCCM further strengthens feature interactions across modalities, facilitating seamless integration of critical information from both sources. Additionally, we introduce a Bi-level Self-supervised Contrastive Learning Loss (BSCL), which preserves high-frequency information without increasing computational overhead while simultaneously boosting performance in downstream tasks. Extensive experiments demonstrate that our approach outperforms state-of-the-art (SOTA) image fusion algorithms in tasks such as infrared-visible, medical, multi-focus, and multi-exposure fusion, as well as downstream visual tasks.

Self-supervised Multiplex Consensus Mamba for General Image Fusion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册