MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

作者: Shiqi Dai, Zizhi Ma, Zhicong Luo, Xuesong Yang, Yibin Huang, Wanyue Zhang, Chi Chen, Zonghao Guo, Wang Xu, Yufei Sun, Maosong Sun

分类: cs.CV

发布日期: 2025-12-29

备注: 25 pages

💡 一句话要点

提出MM-UAVBench，评估多模态大语言模型在低空无人机场景下的感知、认知和规划能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 无人机 低空场景 基准测试 感知 认知 规划 空间推理

📋 核心要点

现有MLLM基准测试缺乏对低空无人机场景的针对性评估，无法有效反映模型在此类复杂环境下的性能。
MM-UAVBench通过构建包含感知、认知和规划三个维度的综合评估体系，系统地测试MLLM在低空无人机场景中的能力。
实验结果表明，现有MLLM在低空场景中面临空间偏差和多视角理解等挑战，性能有待提升。

📝 摘要（中文）

多模态大语言模型(MLLMs)在各个领域展现了卓越的通用智能，但其在无人机(UAV)主导的低空应用中的潜力尚未得到充分探索。现有的MLLM基准测试很少涵盖低空场景的独特挑战，而与UAV相关的评估主要集中在定位或导航等特定任务上，缺乏对MLLM通用智能的统一评估。为了弥合这一差距，我们提出了MM-UAVBench，这是一个全面的基准，系统地评估了MLLM在低空UAV场景中的三个核心能力维度——感知、认知和规划。MM-UAVBench包含19个子任务，包含超过5.7K个手动标注的问题，所有问题都来自公共数据集收集的真实UAV数据。对16个开源和专有MLLM的大量实验表明，当前的模型难以适应低空场景的复杂视觉和认知需求。我们的分析进一步揭示了空间偏差和多视角理解等关键瓶颈，这些瓶颈阻碍了MLLM在UAV场景中的有效部署。我们希望MM-UAVBench能够促进未来对鲁棒且可靠的MLLM在实际UAV智能方面的研究。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型(MLLM)在低空无人机(UAV)场景下应用效果评估不足的问题。现有MLLM基准测试很少关注低空环境的特殊性，而UAV相关的研究又过于关注特定任务，缺乏对MLLM通用智能的全面评估。这导致我们难以了解现有MLLM在实际UAV应用中的潜力和局限性。

核心思路：论文的核心思路是构建一个专门针对低空UAV场景的综合性基准测试集MM-UAVBench。通过设计一系列涵盖感知、认知和规划三个核心能力维度的子任务，系统地评估MLLM在处理低空UAV数据时的表现。这种方法能够更全面地揭示MLLM在UAV应用中的优势和不足，为未来的研究提供指导。

技术框架：MM-UAVBench的整体框架包括数据收集、任务设计和模型评估三个主要阶段。首先，从公共数据集中收集真实的UAV图像和视频数据。然后，基于这些数据设计19个子任务，涵盖感知（例如目标检测、场景理解）、认知（例如推理、常识判断）和规划（例如路径规划、任务调度）三个维度。最后，使用这些子任务评估多个开源和专有的MLLM，并分析其性能瓶颈。

关键创新：MM-UAVBench的关键创新在于其针对低空UAV场景的特殊设计。与现有的通用MLLM基准测试不同，MM-UAVBench更加关注低空环境的复杂性和挑战，例如视角变化、光照变化和遮挡等。此外，MM-UAVBench还引入了规划任务，这在现有的MLLM基准测试中相对较少。

关键设计：MM-UAVBench包含19个子任务，每个子任务都包含多个手动标注的问题。这些问题旨在测试MLLM在不同方面的能力，例如识别不同类型的目标、理解场景中的关系、进行逻辑推理和制定合理的计划。为了确保评估的公平性和可靠性，论文作者对所有问题进行了仔细的审查和验证。

🖼️ 关键图片

📊 实验亮点

在MM-UAVBench上对16个MLLM的实验结果表明，现有模型在低空UAV场景中表现不佳，尤其是在空间推理和多视角理解方面。例如，模型在处理视角变化较大的图像时，目标识别的准确率显著下降。这些结果揭示了现有MLLM在UAV应用中的局限性，为未来的研究指明了方向。

🎯 应用场景

该研究成果可应用于多种低空无人机应用场景，例如智能巡检、环境监测、灾害救援和物流配送等。通过评估和改进MLLM在这些场景下的性能，可以提高无人机的自主性和智能化水平，从而提升工作效率和安全性。未来，该基准测试集可以促进更多针对无人机应用的MLLM研究。

📄 摘要（原文）

While Multimodal Large Language Models (MLLMs) have exhibited remarkable general intelligence across diverse domains, their potential in low-altitude applications dominated by Unmanned Aerial Vehicles (UAVs) remains largely underexplored. Existing MLLM benchmarks rarely cover the unique challenges of low-altitude scenarios, while UAV-related evaluations mainly focus on specific tasks such as localization or navigation, without a unified evaluation of MLLMs'general intelligence. To bridge this gap, we present MM-UAVBench, a comprehensive benchmark that systematically evaluates MLLMs across three core capability dimensions-perception, cognition, and planning-in low-altitude UAV scenarios. MM-UAVBench comprises 19 sub-tasks with over 5.7K manually annotated questions, all derived from real-world UAV data collected from public datasets. Extensive experiments on 16 open-source and proprietary MLLMs reveal that current models struggle to adapt to the complex visual and cognitive demands of low-altitude scenarios. Our analyses further uncover critical bottlenecks such as spatial bias and multi-view understanding that hinder the effective deployment of MLLMs in UAV scenarios. We hope MM-UAVBench will foster future research on robust and reliable MLLMs for real-world UAV intelligence.

MM-UAVBench: How Well Do Multimodal Large Language Models See, Think, and Plan in Low-Altitude UAV Scenarios?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册