Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

📄 arXiv: 2603.05473v1 📥 PDF

作者: Scout Jarman, Zigfried Hampel-Arias, Adra Carr, Kevin R. Moon

分类: cs.CV

发布日期: 2026-03-05

备注: This manuscript was submitted to SPIE JARS and is under review. Code and Data can be found at https://github.com/lanl/HSI-Nerfstudio and https://zenodo.org/records/18626884 respectively. Video 1 and Video 2 can be found at https://github.com/lanl/HSI-Nerfstudio/blob/main/renders/paper/grid_Falsecolor.mp4 and https://github.com/lanl/HSI-Nerfstudio/blob/main/renders/paper/grid_ACE.mp4 respectively


💡 一句话要点

提出基于神经辐射场的LWIR高光谱气体羽流三维场景理解方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 神经辐射场 高光谱图像 长波红外 三维场景重建 气体羽流检测

📋 核心要点

  1. 现有LWIR高光谱图像分析通常独立处理少量图像,缺乏场景几何和光谱信息的有效融合。
  2. 利用神经辐射场NeRFs构建场景的潜在神经表示,实现新视角渲染和三维几何重建,从而融合多视角信息。
  3. 在合成LWIR高光谱数据集上验证,提出的方法在少量训练图像下实现了较高的重建质量和气体羽流检测精度。

📝 摘要(中文)

高光谱图像(HSI)在环境监测和国家安全等领域有广泛应用,可用于材料检测和识别。长波红外(LWIR) HSI可用于气体羽流检测和分析。通常,只有少数场景图像可用,且被单独分析。将多幅图像信息整合为统一表示,可增强场景几何和光谱属性分析。神经辐射场(NeRFs)创建体积场景属性的潜在神经表示,实现新视角渲染和几何重建,为高光谱三维场景重建提供有希望的途径。本文探索使用NeRFs从LWIR HSI创建3D场景重建的可能性,并证明该模型可用于气体羽流检测这一基本下游分析任务。使用基于物理的DIRSIG软件套件生成了一个包含六氟化硫气体羽流的合成多视角LWIR HSI数据集。本文方法基于标准的Mip-NeRF架构,结合了高光谱NeRFs和稀疏视角NeRFs的最新方法,以及一种新的自适应加权MSE损失。最终的NeRF方法比标准Mip-NeRF所需的训练图像减少约50%,并且仅使用30张训练图像即可实现平均39.8 dB的PSNR。当与从ground-truth测试图像生成的检测掩码进行比较时,使用自适应相干估计器应用于NeRF渲染的测试图像的气体羽流检测实现了平均0.821的AUC。

🔬 方法详解

问题定义:现有方法在处理少量LWIR高光谱图像时,难以有效融合多视角信息,导致场景理解不完整。传统方法通常独立分析图像,无法充分利用场景的几何和光谱属性之间的关联性。这限制了气体羽流检测等下游任务的性能。

核心思路:利用神经辐射场(NeRF)将场景表示为一个连续的体积函数,通过学习场景的辐射率和密度来合成新视角的图像。NeRF能够从少量图像中学习到场景的几何和外观信息,从而实现多视角信息的融合。通过将高光谱信息融入NeRF框架,可以同时重建场景的几何结构和光谱特性。

技术框架:该方法基于Mip-NeRF架构,并结合了高光谱NeRFs和稀疏视角NeRFs的最新技术。整体流程包括:1) 使用DIRSIG软件生成合成多视角LWIR HSI数据集;2) 将数据集输入到改进的Mip-NeRF模型中进行训练;3) 使用训练好的NeRF模型渲染新视角的图像;4) 使用自适应相干估计器对渲染图像进行气体羽流检测。

关键创新:该方法的主要创新在于将NeRF应用于LWIR高光谱图像的三维场景重建,并针对稀疏视角和高光谱数据特点进行了优化。此外,提出了自适应加权MSE损失函数,以提高重建质量和气体羽流检测精度。

关键设计:自适应加权MSE损失函数是关键设计之一,它根据像素的光谱特性动态调整权重,从而更好地处理高光谱数据中的噪声和伪影。具体来说,损失函数的权重与像素的光谱能量成反比,使得模型更加关注光谱能量较低的像素,从而提高重建质量。此外,网络结构也进行了调整,以适应高光谱数据的特点,例如,使用更大的网络容量和更深的网络层数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的方法在仅使用30张训练图像的情况下,实现了平均39.8 dB的PSNR,相比标准Mip-NeRF减少了约50%的训练图像需求。在气体羽流检测任务中,使用自适应相干估计器对NeRF渲染的测试图像进行检测,实现了平均0.821的AUC,表明该方法能够有效重建场景并进行气体羽流检测。

🎯 应用场景

该研究成果可应用于环境监测、工业安全、灾害救援等领域。通过对泄漏气体进行三维重建和可视化,可以更准确地评估泄漏源的位置和泄漏量,为应急响应提供决策支持。此外,该技术还可以用于遥感图像分析、目标识别和场景理解等领域,具有广泛的应用前景。

📄 摘要(原文)

Hyperspectral images (HSI) have many applications, ranging from environmental monitoring to national security, and can be used for material detection and identification. Longwave infrared (LWIR) HSI can be used for gas plume detection and analysis. Oftentimes, only a few images of a scene of interest are available and are analyzed individually. The ability to combine information from multiple images into a single, cohesive representation could enhance analysis by providing more context on the scene's geometry and spectral properties. Neural radiance fields (NeRFs) create a latent neural representation of volumetric scene properties that enable novel-view rendering and geometry reconstruction, offering a promising avenue for hyperspectral 3D scene reconstruction. We explore the possibility of using NeRFs to create 3D scene reconstructions from LWIR HSI and demonstrate that the model can be used for the basic downstream analysis task of gas plume detection. The physics-based DIRSIG software suite was used to generate a synthetic multi-view LWIR HSI dataset of a simple facility with a strong sulfur hexafluoride gas plume. Our method, built on the standard Mip-NeRF architecture, combines state-of-the-art methods for hyperspectral NeRFs and sparse-view NeRFs, along with a novel adaptive weighted MSE loss. Our final NeRF method requires around 50% fewer training images than the standard Mip-NeRF and achieves an average PSNR of 39.8 dB with as few as 30 training images. Gas plume detection applied to NeRF-rendered test images using the adaptive coherence estimator achieves an average AUC of 0.821 when compared with detection masks generated from ground-truth test images.