Seeing Heat with Color -- RGB-Only Wildfire Temperature Inference from SAM-Guided Multimodal Distillation using Radiometric Ground Truth
作者: Michael Marinaccio, Fatemeh Afghah
分类: eess.IV, cs.AI, cs.CV
发布日期: 2025-05-03
备注: 7 pages, 4 figures, 4 tables
💡 一句话要点
提出SAM-TIFF框架以实现RGB图像的野火温度推断
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 野火监测 RGB图像 温度推断 蒸馏学习 无人机技术 多模态学习 图像分割
📋 核心要点
- 现有的野火监测方法通常依赖于RGB和热成像的多模态传感,导致硬件成本和能耗增加。
- 本文提出的SAM-TIFF框架通过蒸馏学习实现了仅使用RGB图像进行野火温度推断,降低了对热传感器的依赖。
- 在FLAME 3数据集上的实验结果表明,该方法在逐像素温度回归任务中具有显著的泛化能力和准确性。
📝 摘要(中文)
高保真野火监测通常需要多模态传感,尤其是RGB和热成像,这增加了硬件成本和能耗。本文提出了SAM-TIFF,一个新颖的教师-学生蒸馏框架,利用仅有的RGB输入进行像素级野火温度预测和分割。通过在配对的RGB-热成像数据和辐射TIFF地面真值上训练的多模态教师网络,将知识蒸馏到单模态RGB学生网络,从而实现无热传感器推断。分割监督采用了基于“Segment Anything”(SAM)引导的掩膜生成和TOPSIS选择的混合方法,以及Canny边缘检测和Otsu阈值处理管道进行自动点提示选择。该方法首次实现了从RGB无人机数据进行逐像素温度回归,在最新的FLAME 3数据集上表现出强大的泛化能力,为轻量级、经济高效的无人机野火监测系统奠定了基础。
🔬 方法详解
问题定义:本文旨在解决现有野火监测方法中对多模态传感器的依赖,尤其是热成像传感器的高成本和高能耗问题。
核心思路:通过引入SAM-TIFF框架,利用多模态教师网络将知识蒸馏到单模态RGB学生网络,从而实现仅依赖RGB图像进行温度推断。
技术框架:整体架构包括多模态教师网络和单模态学生网络,教师网络在RGB-热成像配对数据上训练,学生网络则通过蒸馏学习获得温度预测能力。分割监督通过SAM引导的掩膜生成和TOPSIS选择实现。
关键创新:该研究的创新在于首次实现了从RGB无人机数据进行逐像素温度回归,突破了传统方法对热成像的依赖,具有重要的实际应用价值。
关键设计:在网络设计上,采用了混合的监督学习策略,结合了Canny边缘检测和Otsu阈值处理,以实现自动化的点提示选择,提升了分割和温度推断的准确性。
📊 实验亮点
实验结果显示,SAM-TIFF框架在FLAME 3数据集上实现了显著的性能提升,逐像素温度回归的准确性超过了现有基线方法,表明该方法在实际应用中的有效性和可靠性。
🎯 应用场景
该研究的潜在应用领域包括无人机监测、环境保护和灾害管理等。通过降低对热传感器的依赖,SAM-TIFF框架能够为野火监测提供更经济、高效的解决方案,推动无人机技术在环境监测中的广泛应用,具有重要的社会价值和实际影响。
📄 摘要(原文)
High-fidelity wildfire monitoring using Unmanned Aerial Vehicles (UAVs) typically requires multimodal sensing - especially RGB and thermal imagery - which increases hardware cost and power consumption. This paper introduces SAM-TIFF, a novel teacher-student distillation framework for pixel-level wildfire temperature prediction and segmentation using RGB input only. A multimodal teacher network trained on paired RGB-Thermal imagery and radiometric TIFF ground truth distills knowledge to a unimodal RGB student network, enabling thermal-sensor-free inference. Segmentation supervision is generated using a hybrid approach of segment anything (SAM)-guided mask generation, and selection via TOPSIS, along with Canny edge detection and Otsu's thresholding pipeline for automatic point prompt selection. Our method is the first to perform per-pixel temperature regression from RGB UAV data, demonstrating strong generalization on the recent FLAME 3 dataset. This work lays the foundation for lightweight, cost-effective UAV-based wildfire monitoring systems without thermal sensors.