HM-Bench: A Comprehensive Benchmark for Multimodal Large Language Models in Hyperspectral Remote Sensing

📄 arXiv: 2604.08884v1 📥 PDF

作者: Xinyu Zhang, Zurong Mai, Qingmei Li, Zjin Liao, Yibin Wen, Yuhang Chen, Xiaoya Fan, Chan Tsz Ho, Bi Tianyuan, Haoyuan Liang, Ruifeng Su, Zihao Qian, Juepeng Zheng, Jianxi Huang, Yutong Lu, Haohuan Fu

分类: cs.CV, cs.AI

发布日期: 2026-04-10

🔗 代码/项目: GITHUB


💡 一句话要点

提出HM-Bench,用于评估多模态大语言模型在高光谱遥感图像理解中的能力。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高光谱遥感 多模态大语言模型 基准测试 图像理解 空间-光谱推理

📋 核心要点

  1. 现有MLLMs在自然图像理解方面取得了进展,但在高光谱遥感图像理解方面的能力仍有待探索。
  2. HM-Bench通过构建大规模问答数据集和双模态评估框架,系统地评估MLLMs在高光谱图像理解中的性能。
  3. 实验结果表明,现有MLLMs在处理复杂空间-光谱推理任务时存在困难,视觉输入通常优于文本输入。

📝 摘要(中文)

本文提出了高光谱多模态基准测试(HM-Bench),旨在评估多模态大语言模型(MLLMs)在高光谱图像(HSI)理解方面的能力。该基准包含一个大规模数据集,由19337个问答对组成,涵盖13个任务类别,从基本感知到光谱推理。由于现有的MLLMs无法直接处理原始高光谱立方体,因此本文提出了一种双模态评估框架,将HSI数据转换为两种互补的表示形式:基于PCA的合成图像和结构化文本报告。通过对18个代表性MLLMs的广泛评估表明,这些模型在处理复杂的空间-光谱推理任务时存在显著困难。实验结果还表明,视觉输入通常优于文本输入,突出了在光谱-空间证据中进行有效HSI理解的重要性。

🔬 方法详解

问题定义:现有的大型多模态模型(MLLMs)主要在自然图像上训练,缺乏对高光谱遥感图像(HSI)的理解能力。HSI具有高维度和复杂的空间-光谱特性,这对于主要基于RGB数据训练的模型构成了独特的挑战。因此,如何有效地评估和提升MLLMs在HSI理解方面的能力是一个关键问题。

核心思路:为了解决上述问题,论文提出了HM-Bench基准测试,它包含一个大规模的HSI问答数据集,并设计了一个双模态评估框架。核心思路是将HSI数据转换为两种互补的表示形式:基于PCA的合成图像和结构化文本报告,从而使现有的MLLMs能够处理和理解HSI数据。

技术框架:HM-Bench的整体框架包括数据收集与标注、数据预处理与转换、模型评估三个主要阶段。首先,收集并标注了包含19337个问答对的大规模HSI数据集,涵盖13个任务类别。然后,将原始HSI数据转换为基于PCA的合成图像和结构化文本报告。最后,使用这些数据评估18个代表性的MLLMs,并分析它们的性能。

关键创新:HM-Bench的主要创新在于它是第一个专门为评估MLLMs在高光谱图像理解能力而设计的基准测试。此外,提出的双模态评估框架能够有效地将高维度的HSI数据转换为MLLMs可以处理的表示形式,从而实现了对MLLMs在高光谱遥感领域的系统评估。

关键设计:在数据预处理阶段,使用了PCA降维技术将高维度的HSI数据转换为低维度的合成图像,同时保留了重要的光谱信息。结构化文本报告则包含了HSI数据的统计信息和专家知识。在模型评估阶段,使用了多种评估指标来衡量MLLMs在不同任务上的性能,例如准确率、召回率和F1值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的MLLMs在处理复杂的空间-光谱推理任务时存在显著困难。在HM-Bench基准测试中,大多数MLLMs的性能远低于人类水平。此外,实验还发现,视觉输入(PCA合成图像)通常优于文本输入(结构化文本报告),这表明在光谱-空间证据中进行有效HSI理解的重要性。这些发现为未来MLLMs在高光谱遥感领域的应用提供了重要的指导。

🎯 应用场景

该研究成果可应用于精准农业、环境监测、灾害评估等领域。通过提升MLLMs对高光谱遥感图像的理解能力,可以更有效地分析地表覆盖、植被健康状况、水体质量等信息,为相关决策提供支持。未来,该研究可以促进遥感图像智能解译技术的发展,并推动其在更多领域的应用。

📄 摘要(原文)

While multimodal large language models (MLLMs) have made significant strides in natural image understanding, their ability to perceive and reason over hyperspectral image (HSI) remains underexplored, which is a vital modality in remote sensing. The high dimensionality and intricate spectral-spatial properties of HSI pose unique challenges for models primarily trained on RGB data.To address this gap, we introduce Hyperspectral Multimodal Benchmark (HM-Bench), the first benchmark designed specifically to evaluate MLLMs in HSI understanding. We curate a large-scale dataset of 19,337 question-answer pairs across 13 task categories, ranging from basic perception to spectral reasoning. Given that existing MLLMs are not equipped to process raw hyperspectral cubes natively, we propose a dual-modality evaluation framework that transforms HSI data into two complementary representations: PCA-based composite images and structured textual reports. This approach facilitates a systematic comparison of different representation for model performance. Extensive evaluations on 18 representative MLLMs reveal significant difficulties in handling complex spatial-spectral reasoning tasks. Furthermore, our results demonstrate that visual inputs generally outperform textual inputs, highlighting the importance of grounding in spectral-spatial evidence for effective HSI understanding. Dataset and appendix can be accessed at https://github.com/HuoRiLi-Yu/HM-Bench.