FlyAwareV2: A Multimodal Cross-Domain UAV Dataset for Urban Scene Understanding

作者: Francesco Barbato, Matteo Caligiuri, Pietro Zanuttigh

分类: cs.CV

发布日期: 2025-10-15

备注: 20 pages, 7 figures, 10 tables, data and code available

💡 一句话要点

FlyAwareV2：用于城市场景理解的多模态跨域无人机数据集

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 无人机视觉 城市场景理解 多模态数据集 领域自适应 语义分割 深度估计 合成数据 真实数据

📋 核心要点

现有无人机数据集在规模、模态和真实性上存在局限，难以满足复杂城市环境理解的需求。
FlyAwareV2通过融合真实和合成数据，提供多模态信息，并引入领域自适应研究，提升模型泛化能力。
该数据集包含RGB、深度和语义标签，并提供语义分割基准，为无人机城市场景理解研究提供资源。

📝 摘要（中文）

城市环境中无人机(UAV)应用计算机视觉算法的开发严重依赖于具有精确标注的大规模数据集的可用性。然而，收集和标注真实世界的无人机数据极具挑战且成本高昂。为了解决这个限制，我们提出了FlyAwareV2，这是一个新颖的多模态数据集，包含真实和合成的无人机图像，专为城市场景理解任务而设计。在最近推出的SynDrone和FlyAware数据集的基础上，FlyAwareV2引入了几个新的关键贡献：1)跨不同环境条件（包括不同的天气和白天）的多模态数据（RGB、深度、语义标签）；2)通过最先进的单目深度估计计算的真实样本的深度图；3)标准架构上RGB和多模态语义分割的基准；4)关于合成到真实领域自适应的研究，以评估在合成数据上训练的模型的泛化能力。凭借其丰富的标注集和环境多样性，FlyAwareV2为基于无人机的3D城市场景理解研究提供了宝贵的资源。

🔬 方法详解

问题定义：现有无人机视觉数据集在城市环境下的应用面临挑战，主要痛点在于数据规模有限、模态单一、真实数据标注成本高昂，以及合成数据与真实数据之间存在领域差异，导致模型泛化能力不足。

核心思路：FlyAwareV2的核心思路是构建一个大规模、多模态的无人机数据集，同时包含真实数据和合成数据，并提供深度信息和语义标注。通过合成数据增强数据规模，利用领域自适应技术弥合合成数据和真实数据之间的差距，从而提高模型在真实城市环境中的泛化能力。

技术框架：FlyAwareV2数据集包含以下几个主要组成部分：1)真实无人机图像数据，包含RGB图像和通过单目深度估计方法生成的深度图；2)合成无人机图像数据，包含RGB图像、深度图和语义标签；3)用于RGB和多模态语义分割的基准模型；4)领域自适应实验，用于评估模型在合成数据上训练后在真实数据上的性能。

关键创新：FlyAwareV2的关键创新在于：1)融合了真实和合成的无人机数据，并提供了多模态信息（RGB、深度、语义标签）；2)利用先进的单目深度估计方法为真实数据生成深度图，降低了数据采集成本；3)提供了领域自适应的实验，有助于研究如何利用合成数据提高模型在真实场景中的泛化能力。

关键设计：FlyAwareV2在数据采集和处理方面进行了精心的设计。对于真实数据，采用了高质量的无人机图像，并使用最先进的单目深度估计方法生成深度图。对于合成数据，使用了逼真的城市环境模型，并模拟了不同的天气和光照条件。此外，该数据集还提供了详细的语义标注，涵盖了城市环境中的各种物体类别。领域自适应实验采用了常用的领域对抗训练方法，并评估了不同模型的性能。

📊 实验亮点

FlyAwareV2数据集在标准语义分割架构上进行了基准测试，为研究人员提供了一个评估模型性能的平台。通过领域自适应实验，研究人员可以评估在合成数据上训练的模型在真实数据上的泛化能力，并探索有效的领域自适应方法。该数据集的多样性和丰富性使其成为无人机城市场景理解研究的理想选择。

🎯 应用场景

FlyAwareV2数据集可广泛应用于无人机城市环境感知、智能交通、城市规划、灾害救援等领域。该数据集能够促进无人机视觉算法的研发，提高无人机在复杂城市环境中的自主导航、目标检测和场景理解能力，为智慧城市建设提供技术支撑，并为相关研究提供宝贵的数据资源。

📄 摘要（原文）

The development of computer vision algorithms for Unmanned Aerial Vehicle (UAV) applications in urban environments heavily relies on the availability of large-scale datasets with accurate annotations. However, collecting and annotating real-world UAV data is extremely challenging and costly. To address this limitation, we present FlyAwareV2, a novel multimodal dataset encompassing both real and synthetic UAV imagery tailored for urban scene understanding tasks. Building upon the recently introduced SynDrone and FlyAware datasets, FlyAwareV2 introduces several new key contributions: 1) Multimodal data (RGB, depth, semantic labels) across diverse environmental conditions including varying weather and daytime; 2) Depth maps for real samples computed via state-of-the-art monocular depth estimation; 3) Benchmarks for RGB and multimodal semantic segmentation on standard architectures; 4) Studies on synthetic-to-real domain adaptation to assess the generalization capabilities of models trained on the synthetic data. With its rich set of annotations and environmental diversity, FlyAwareV2 provides a valuable resource for research on UAV-based 3D urban scene understanding.

FlyAwareV2: A Multimodal Cross-Domain UAV Dataset for Urban Scene Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册