TartanGround: A Large-Scale Dataset for Ground Robot Perception and Navigation

📄 arXiv: 2505.10696v2 📥 PDF

作者: Manthan Patel, Fan Yang, Yuheng Qiu, Cesar Cadena, Sebastian Scherer, Marco Hutter, Wenshan Wang

分类: cs.RO, cs.CV

发布日期: 2025-05-15 (更新: 2025-07-30)

备注: Accepted for publication to IEEE/RSJ IROS 2025


💡 一句话要点

提出TartanGround数据集以提升地面机器人感知与导航能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 地面机器人 多模态数据集 感知与导航 SLAM 占用预测 仿真环境 自动化管道

📋 核心要点

  1. 现有方法在多样化场景中的泛化能力不足,限制了地面机器人在复杂环境中的应用。
  2. TartanGround数据集通过多模态数据收集,提供丰富的感知信息,支持多种学习任务的训练与评估。
  3. 实验结果显示,TartanGround显著提升了占用预测和SLAM任务的性能,展示了其在多样场景中的有效性。

📝 摘要(中文)

我们提出了TartanGround,这是一个大规模的多模态数据集,旨在推动地面机器人在多样环境中的感知与自主能力。该数据集在多个逼真的仿真环境中收集,包含多个RGB立体摄像头以实现360度覆盖,同时提供深度、光流、立体视差、LiDAR点云、真实位姿、语义分割图像和带语义标签的占用地图。数据通过集成的自动化管道收集,生成模拟各种地面机器人平台(包括轮式和腿式机器人)运动模式的轨迹。我们在70个环境中收集了910条轨迹,生成150万个样本。对占用预测和SLAM任务的评估表明,现有数据集上训练的最先进方法在多样场景中泛化能力不足。TartanGround可作为训练和评估多种基于学习的任务的测试平台,推动机器人感知和自主能力的发展,从而实现更强大的模型,能够在更广泛的场景中泛化。

🔬 方法详解

问题定义:本论文旨在解决现有地面机器人在多样环境中感知与导航能力不足的问题。现有方法在复杂场景中的泛化能力较差,限制了其实际应用。

核心思路:论文提出的TartanGround数据集通过在多种仿真环境中收集多模态数据,提供丰富的感知信息,旨在提升机器人在不同场景中的自主导航能力。

技术框架:数据收集采用集成的自动化管道,生成模拟不同地面机器人运动模式的轨迹。数据集包含RGB立体图像、深度图、光流、LiDAR点云等多种信息,支持多种学习任务的训练与评估。

关键创新:TartanGround数据集的最大创新在于其多模态数据的全面性和丰富性,能够有效支持占用预测、SLAM等任务的训练,显著提升现有方法在多样场景中的泛化能力。

关键设计:数据集设计中,采用了多种传感器数据的融合,包括RGB、深度、光流等,同时提供真实位姿和语义标签,确保数据的准确性和实用性。

📊 实验亮点

实验结果表明,使用TartanGround数据集训练的模型在占用预测和SLAM任务上表现优异,相较于现有数据集,泛化能力提升显著,具体性能数据尚未披露。

🎯 应用场景

TartanGround数据集的潜在应用领域包括自主驾驶、机器人导航、环境感知等。通过提供丰富的多模态数据,该数据集能够帮助研究人员和工程师开发更为智能和可靠的机器人系统,推动机器人技术在实际应用中的发展与普及。

📄 摘要(原文)

We present TartanGround, a large-scale, multi-modal dataset to advance the perception and autonomy of ground robots operating in diverse environments. This dataset, collected in various photorealistic simulation environments includes multiple RGB stereo cameras for 360-degree coverage, along with depth, optical flow, stereo disparity, LiDAR point clouds, ground truth poses, semantic segmented images, and occupancy maps with semantic labels. Data is collected using an integrated automatic pipeline, which generates trajectories mimicking the motion patterns of various ground robot platforms, including wheeled and legged robots. We collect 910 trajectories across 70 environments, resulting in 1.5 million samples. Evaluations on occupancy prediction and SLAM tasks reveal that state-of-the-art methods trained on existing datasets struggle to generalize across diverse scenes. TartanGround can serve as a testbed for training and evaluation of a broad range of learning-based tasks, including occupancy prediction, SLAM, neural scene representation, perception-based navigation, and more, enabling advancements in robotic perception and autonomy towards achieving robust models generalizable to more diverse scenarios. The dataset and codebase are available on the webpage: https://tartanair.org/tartanground