LUT-Fuse: Towards Extremely Fast Infrared and Visible Image Fusion via Distillation to Learnable Look-Up Tables

作者: Xunpeng Yi, Yibing Zhang, Xinyu Xiang, Qinglong Yan, Han Xu, Jiayi Ma

分类: cs.CV

发布日期: 2025-08-30

备注: Accepted by ICCV 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出LUT-Fuse以解决实时红外与可见光图像融合问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 红外图像 可见光图像 图像融合 蒸馏学习 查找表 多模态融合 实时处理 高效算法

📋 核心要点

现有红外与可见光图像融合方法多关注性能提升，忽视实时应用的需求，导致在实际设备上应用受限。
本文提出LUT-Fuse，通过蒸馏学习可学习的查找表，结合低阶近似编码与高层次上下文编码，实现快速高效的图像融合。
实验结果表明，LUT-Fuse在效率上显著优于现有轻量级融合算法，处理时间通常不到其十分之一，适用于多种场景。

📝 摘要（中文）

当前红外与可见光图像融合的研究主要集中在提高融合性能上，往往忽视了实时融合设备的适用性。本文提出了一种新颖的方法LUT-Fuse，通过蒸馏学习可学习的查找表，实现极快的图像融合。我们开发了一种查找表结构，利用低阶近似编码和高层次的联合上下文场景编码，适合多模态融合。此外，针对多模态图像融合缺乏真实标签的问题，我们提出了高效的LUT蒸馏策略，替代传统的量化LUT方法。通过将多模态融合网络（MM-Net）的性能整合到MM-LUT模型中，我们的方法在效率和性能上取得了显著突破，通常所需时间不到当前轻量级SOTA融合算法的十分之一，确保在各种场景下的高操作速度，甚至在低功耗移动设备上也能高效运行。大量实验验证了我们融合方法的优越性、可靠性和稳定性。

🔬 方法详解

问题定义：本文旨在解决红外与可见光图像融合的实时性问题，现有方法往往在性能上有所提升，但在实际应用中速度较慢，难以满足实时设备的需求。

核心思路：LUT-Fuse的核心思路是通过蒸馏学习可学习的查找表，利用低阶近似编码和高层次的联合上下文场景编码，以实现快速且高效的多模态图像融合。这样的设计使得融合过程能够在保持高性能的同时，显著提升处理速度。

技术框架：该方法的整体架构包括查找表结构的设计、LUT蒸馏策略的实现以及与多模态融合网络（MM-Net）的结合。首先，构建查找表以适应多模态数据的特性，然后通过蒸馏策略优化查找表的学习过程。

关键创新：LUT-Fuse的主要创新在于引入了高效的LUT蒸馏策略，替代了传统的量化方法，使得在缺乏真实标签的情况下，依然能够有效学习到融合所需的特征。这一创新使得方法在效率和性能上均有显著提升。

关键设计：在设计过程中，采用了低阶近似编码和高层次上下文编码相结合的方式，确保了多模态数据的有效融合。同时，网络结构经过精心设计，以适应快速处理的需求，损失函数的选择也考虑到了融合效果的优化。

📊 实验亮点

实验结果显示，LUT-Fuse在处理速度上显著优于当前的轻量级SOTA融合算法，通常处理时间不到其十分之一。同时，在多模态图像融合的性能上也取得了显著提升，验证了该方法的有效性和稳定性。

🎯 应用场景

LUT-Fuse的研究成果在多个领域具有广泛的应用潜力，特别是在需要实时图像处理的场景，如无人驾驶、安防监控和移动设备等。其高效的融合能力能够提升多模态数据的利用效率，为实际应用提供更为可靠的支持。未来，该方法有望在更多实际场景中得到推广和应用。

📄 摘要（原文）

Current advanced research on infrared and visible image fusion primarily focuses on improving fusion performance, often neglecting the applicability on real-time fusion devices. In this paper, we propose a novel approach that towards extremely fast fusion via distillation to learnable lookup tables specifically designed for image fusion, termed as LUT-Fuse. Firstly, we develop a look-up table structure that utilizing low-order approximation encoding and high-level joint contextual scene encoding, which is well-suited for multi-modal fusion. Moreover, given the lack of ground truth in multi-modal image fusion, we naturally proposed the efficient LUT distillation strategy instead of traditional quantization LUT methods. By integrating the performance of the multi-modal fusion network (MM-Net) into the MM-LUT model, our method achieves significant breakthroughs in efficiency and performance. It typically requires less than one-tenth of the time compared to the current lightweight SOTA fusion algorithms, ensuring high operational speed across various scenarios, even in low-power mobile devices. Extensive experiments validate the superiority, reliability, and stability of our fusion approach. The code is available at https://github.com/zyb5/LUT-Fuse.

LUT-Fuse: Towards Extremely Fast Infrared and Visible Image Fusion via Distillation to Learnable Look-Up Tables

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册