WildScenes: A Benchmark for 2D and 3D Semantic Segmentation in Large-scale Natural Environments

作者: Kavisha Vidanapathirana, Joshua Knights, Stephen Hausler, Mark Cox, Milad Ramezani, Jason Jooste, Ethan Griffiths, Shaheer Mohamed, Sridha Sridharan, Clinton Fookes, Peyman Moghadam

分类: cs.RO, cs.CV

发布日期: 2023-12-23 (更新: 2024-11-12)

备注: Accepted in the The International Journal of Robotics Research (IJRR)

DOI: 10.1177/02783649241278369

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

WildScenes：大规模自然环境下的2D和3D语义分割基准数据集

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 语义分割 自然环境 双模态数据 LiDAR 领域自适应

📋 核心要点

现有的语义场景理解数据集主要集中在城市环境，缺乏自然环境下的标注数据，限制了相关技术在保护、搜救、环境监测和农业自动化等领域的应用。
WildScenes通过自动化流程将人工标注的2D图像标签迁移到3D点云，高效构建了大规模自然环境下的双模态（相机和LiDAR）语义分割数据集。
该数据集包含不同自然环境和时间跨度的数据，并提供了2D和3D语义分割的基准，以及领域自适应的评估方案，为相关研究提供了有力支持。

📝 摘要（中文）

本文提出了WildScenes，一个双模态基准数据集，用于自然、非结构化环境中的语义场景理解。该数据集包含多个大规模、连续的自然环境轨迹，提供高分辨率2D图像和密集3D LiDAR点云的语义标注，以及精确的6自由度位姿信息。数据具有以下特点：（1）轨迹中心，具有精确定位和全局对齐的点云；（2）经过校准和同步，支持双模态训练和推理；（3）包含6个月内不同自然环境的数据，支持领域自适应研究。3D语义标签通过高效的自动化流程获得，该流程将人工标注的2D标签从多个视图转移到3D点云序列中，从而避免了昂贵且耗时的3D人工标注。本文还介绍了2D和3D语义分割的基准，并评估了各种最新的深度学习技术，以展示自然环境中语义分割的挑战。提出了用于标准基准和领域自适应基准的训练-验证-测试集划分，并采用自动划分生成技术来确保类别标签分布的平衡。WildScenes基准网页为https://csiro-robotics.github.io/WildScenes，数据可在https://data.csiro.au/collection/csiro:61541公开获取。

🔬 方法详解

问题定义：现有语义分割数据集主要集中在结构化的城市环境中，缺乏对非结构化自然环境的覆盖。在自然环境中，光照变化大、物体种类繁多且形态各异，使得现有的语义分割算法难以有效应用。人工标注3D点云成本高昂，阻碍了大规模自然环境数据集的构建。

核心思路：论文的核心思路是利用2D图像的人工标注，通过自动化标签迁移的方法，将2D语义信息传递到3D点云中，从而高效地构建大规模的3D语义分割数据集。这种方法避免了直接在3D点云上进行耗时的人工标注，大大降低了数据集构建的成本。

技术框架：WildScenes数据集的构建流程主要包含以下几个阶段：1) 数据采集：使用配备相机和LiDAR的移动平台，在不同的自然环境中采集图像和点云数据；2) 2D图像标注：人工标注2D图像的语义信息；3) 2D到3D标签迁移：利用相机位姿信息，将2D图像的语义标签投影到3D点云中；4) 数据清洗和验证：对迁移后的3D标签进行清洗和验证，确保标签的准确性；5) 数据集划分：根据类别分布和环境差异，将数据集划分为训练集、验证集和测试集，并提供领域自适应的评估方案。

关键创新：该论文的关键创新在于提出了一种高效的自动化2D到3D标签迁移方法，用于构建大规模自然环境下的3D语义分割数据集。与传统的3D人工标注方法相比，该方法大大降低了数据集构建的成本和时间。此外，该数据集还提供了领域自适应的评估方案，鼓励研究者探索在不同自然环境下的语义分割算法的泛化能力。

关键设计：在2D到3D标签迁移过程中，需要精确的相机位姿信息，以保证标签投影的准确性。论文采用了高精度的定位算法，并对相机和LiDAR进行了精确的标定。为了处理遮挡和噪声等问题，论文可能采用了多视图融合和标签平滑等技术。在数据集划分方面，论文采用了自动划分生成技术，以确保训练集、验证集和测试集中类别标签分布的平衡。

📊 实验亮点

论文通过在WildScenes数据集上评估多种深度学习模型，展示了自然环境语义分割的挑战性。实验结果表明，现有模型在自然环境下的性能显著低于在城市环境下的性能，表明需要开发更鲁棒的语义分割算法。该数据集为领域自适应研究提供了新的基准，鼓励研究者探索在不同自然环境下的模型泛化能力。

🎯 应用场景

WildScenes数据集可广泛应用于保护、搜救、环境监测和农业自动化等领域。例如，在环境保护中，可以利用该数据集训练模型来识别和监测植被类型、动物栖息地等；在搜救行动中，可以帮助搜救人员快速识别地形地貌和潜在的危险区域；在农业自动化中，可以用于农作物识别、杂草检测等。

📄 摘要（原文）

Recent progress in semantic scene understanding has primarily been enabled by the availability of semantically annotated bi-modal (camera and LiDAR) datasets in urban environments. However, such annotated datasets are also needed for natural, unstructured environments to enable semantic perception for applications, including conservation, search and rescue, environment monitoring, and agricultural automation. Therefore, we introduce $WildScenes$, a bi-modal benchmark dataset consisting of multiple large-scale, sequential traversals in natural environments, including semantic annotations in high-resolution 2D images and dense 3D LiDAR point clouds, and accurate 6-DoF pose information. The data is (1) trajectory-centric with accurate localization and globally aligned point clouds, (2) calibrated and synchronized to support bi-modal training and inference, and (3) containing different natural environments over 6 months to support research on domain adaptation. Our 3D semantic labels are obtained via an efficient, automated process that transfers the human-annotated 2D labels from multiple views into 3D point cloud sequences, thus circumventing the need for expensive and time-consuming human annotation in 3D. We introduce benchmarks on 2D and 3D semantic segmentation and evaluate a variety of recent deep-learning techniques to demonstrate the challenges in semantic segmentation in natural environments. We propose train-val-test splits for standard benchmarks as well as domain adaptation benchmarks and utilize an automated split generation technique to ensure the balance of class label distributions. The $WildScenes$ benchmark webpage is https://csiro-robotics.github.io/WildScenes, and the data is publicly available at https://data.csiro.au/collection/csiro:61541 .

WildScenes: A Benchmark for 2D and 3D Semantic Segmentation in Large-scale Natural Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册