Faster and Better: Reinforced Collaborative Distillation and Self-Learning for Infrared-Visible Image Fusion

📄 arXiv: 2509.02424v2 📥 PDF

作者: Yuhao Wang, Lingjuan Miao, Zhiqiang Zhou, Yajun Qiao, Lei Zhang

分类: cs.CV

发布日期: 2025-09-02 (更新: 2025-09-03)


💡 一句话要点

提出基于强化学习的协同蒸馏与自学习框架,用于红外-可见光图像融合。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 红外可见光图像融合 知识蒸馏 强化学习 自学习 轻量化模型

📋 核心要点

  1. 现有红外-可见光图像融合方法难以在轻量化模型上实现高质量的图像融合,这是一个重要的挑战。
  2. 论文提出一种基于强化学习的协同蒸馏和自学习框架,使学生模型不仅能学习教师模型,还能通过自学习增强能力。
  3. 实验结果表明,该方法能显著提升学生模型的性能,实现更好的图像融合效果,优于现有技术。

📝 摘要(中文)

红外与可见光图像融合通过结合不同模态的互补信息,在增强场景感知方面起着关键作用。尽管最近取得了进展,但使用轻量级模型实现高质量的图像融合仍然是一个重大挑战。为了弥合这一差距,我们提出了一种新颖的由强化学习驱动的协同蒸馏和自学习图像融合框架。与传统的蒸馏不同,这种方法不仅使学生模型能够从教师模型中吸收图像融合知识,更重要的是,它允许学生对更具挑战性的样本进行自学习,以增强其能力。特别是在我们的框架中,强化学习代理探索并识别更适合学生的训练策略。该代理将学生的表现和师生差距作为输入,从而生成具有挑战性的样本,以促进学生的自学习。同时,它根据学生的状态动态调整教师的指导强度,以优化知识转移。实验结果表明,与现有技术相比,我们的方法可以显著提高学生模型的性能,并获得更好的融合效果。

🔬 方法详解

问题定义:红外与可见光图像融合旨在结合两种模态的互补信息,提升场景感知能力。然而,现有方法在追求高性能的同时,往往需要复杂的模型结构,难以在资源受限的场景中部署。因此,如何在轻量级模型上实现高质量的图像融合是一个关键问题。现有方法的痛点在于,知识迁移效率低,学生模型难以充分学习教师模型的知识,且缺乏自我提升的能力。

核心思路:论文的核心思路是利用强化学习来指导学生模型的训练过程,使其能够更好地学习教师模型的知识,并通过自学习来提升自身能力。具体来说,通过强化学习代理动态调整教师模型的指导强度,并生成具有挑战性的样本,促进学生模型的自学习。这种协同蒸馏和自学习的方式,能够有效地提升学生模型的性能,同时保持模型的轻量化。

技术框架:整体框架包含教师模型、学生模型和强化学习代理三个主要模块。首先,教师模型提供图像融合的知识。然后,学生模型在教师模型的指导下进行学习,并对具有挑战性的样本进行自学习。强化学习代理则负责监控学生模型的表现和师生差距,并根据这些信息动态调整教师模型的指导强度,并生成具有挑战性的样本。整个过程通过迭代优化,最终使学生模型达到最佳性能。

关键创新:最重要的技术创新点在于引入了强化学习来指导蒸馏过程。传统的蒸馏方法通常采用固定的指导策略,难以适应不同学生模型的学习状态。而该方法通过强化学习代理,能够动态调整指导策略,并生成具有挑战性的样本,从而更有效地提升学生模型的性能。此外,自学习机制的引入,也使得学生模型能够通过对具有挑战性的样本进行学习,进一步提升自身能力。

关键设计:强化学习代理的状态空间包括学生模型的性能指标(如损失函数值)和师生差距(如特征图之间的差异)。动作空间包括调整教师模型指导强度的参数和生成具有挑战性样本的策略。奖励函数的设计目标是使学生模型能够更好地学习教师模型的知识,并提升自身能力。损失函数包括蒸馏损失和自学习损失。网络结构方面,教师模型和学生模型可以采用不同的网络结构,以适应不同的应用场景。

📊 实验亮点

实验结果表明,该方法在红外-可见光图像融合任务上取得了显著的性能提升。与现有的蒸馏方法相比,该方法能够更好地平衡模型性能和计算复杂度。具体而言,在多个公开数据集上,该方法的融合质量指标(如PSNR、SSIM)均优于其他方法,同时保持了较低的计算量。

🎯 应用场景

该研究成果可广泛应用于安防监控、自动驾驶、夜视成像等领域。通过将红外和可见光图像融合,可以提高目标检测、识别和跟踪的准确性,尤其是在光照条件不佳的情况下。此外,轻量级模型的设计使得该方法更易于部署在嵌入式设备和移动平台,具有重要的实际应用价值和广阔的市场前景。

📄 摘要(原文)

Infrared and visible image fusion plays a critical role in enhancing scene perception by combining complementary information from different modalities. Despite recent advances, achieving high-quality image fusion with lightweight models remains a significant challenge. To bridge this gap, we propose a novel collaborative distillation and self-learning framework for image fusion driven by reinforcement learning. Unlike conventional distillation, this approach not only enables the student model to absorb image fusion knowledge from the teacher model, but more importantly, allows the student to perform self-learning on more challenging samples to enhance its capabilities. Particularly, in our framework, a reinforcement learning agent explores and identifies a more suitable training strategy for the student. The agent takes both the student's performance and the teacher-student gap as inputs, which leads to the generation of challenging samples to facilitate the student's self-learning. Simultaneously, it dynamically adjusts the teacher's guidance strength based on the student's state to optimize the knowledge transfer. Experimental results demonstrate that our method can significantly improve student performance and achieve better fusion results compared to existing techniques.