Articulated Object Estimation in the Wild
作者: Abdelrhman Werby, Martin Büchner, Adrian Röfer, Chenguang Huang, Wolfram Burgard, Abhinav Valada
分类: cs.RO, cs.CV
发布日期: 2025-09-01
备注: 9th Conference on Robot Learning (CoRL), 2025
💡 一句话要点
ArtiPoint:提出一种在动态场景下估计铰接物体模型的框架。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 铰接物体估计 深度点跟踪 因子图优化 RGB-D视频 动态场景理解
📋 核心要点
- 现有铰接物体估计方法在非约束环境下表现不佳,无法处理动态相机和部分遮挡。
- ArtiPoint结合深度点跟踪和因子图优化,直接从RGB-D视频中估计铰接部件轨迹和铰接轴。
- Arti4D数据集是首个场景级别的野外铰接物体交互数据集,实验证明ArtiPoint优于现有方法。
📝 摘要(中文)
理解铰接物体的3D运动对于机器人场景理解、移动操作和运动规划至关重要。现有的铰接估计方法主要集中在受控环境中,假设固定的相机视角或直接观察各种物体状态,这在更真实的非约束环境中往往会失败。相比之下,人类可以通过观察他人操纵物体来轻松推断铰接。受此启发,我们引入了ArtiPoint,这是一种新颖的估计框架,可以在动态相机运动和部分可观察性下推断铰接物体模型。通过将深度点跟踪与因子图优化框架相结合,ArtiPoint可以直接从原始RGB-D视频中稳健地估计铰接部件的轨迹和铰接轴。为了促进该领域未来的研究,我们引入了Arti4D,这是第一个以自我为中心的野外数据集,它捕获了场景级别的铰接物体交互,并附带铰接标签和ground-truth相机姿势。我们将ArtiPoint与一系列经典的和基于学习的基线进行比较,证明了其在Arti4D上的优越性能。我们将公开代码和Arti4D数据集。
🔬 方法详解
问题定义:现有铰接物体估计方法主要依赖于受控环境,例如固定的相机视角或对物体状态的直接观测。这些方法在实际的、非约束的环境中,例如动态相机运动和部分遮挡的情况下,往往会失效。因此,需要一种能够在动态场景和部分可观察性下准确估计铰接物体模型的方法。
核心思路:ArtiPoint的核心思路是模仿人类通过观察物体操作来推断铰接的方式。它结合了深度点跟踪和因子图优化,利用RGB-D视频中的信息来估计铰接部件的轨迹和铰接轴。通过跟踪物体上的关键点,并利用因子图优化来约束铰接运动,可以实现对铰接物体模型的稳健估计。
技术框架:ArtiPoint框架主要包含以下几个模块:1) 深度点跟踪模块:用于跟踪RGB-D视频中的关键点,获取它们的3D轨迹。2) 铰接结构先验:利用先验知识对铰接结构进行建模,例如铰接类型(旋转、平移等)和铰接轴的方向。3) 因子图优化模块:将点轨迹和铰接结构先验整合到因子图中,通过优化因子图来估计铰接部件的运动参数和铰接轴。
关键创新:ArtiPoint的关键创新在于其将深度点跟踪与因子图优化相结合,从而能够在动态场景和部分可观察性下稳健地估计铰接物体模型。此外,Arti4D数据集的发布也为该领域的研究提供了新的资源。
关键设计:深度点跟踪模块使用了基于深度信息的特征匹配算法,以提高跟踪的鲁棒性。因子图优化模块使用了GTSAM库,并设计了合适的因子来约束铰接运动。损失函数包括点轨迹的重投影误差、铰接结构先验的约束以及正则化项,以防止过拟合。
📊 实验亮点
ArtiPoint在Arti4D数据集上进行了评估,并与一系列经典的和基于学习的基线方法进行了比较。实验结果表明,ArtiPoint在铰接轴估计和运动轨迹估计方面均优于现有方法。具体而言,ArtiPoint在铰接轴估计的准确率方面取得了显著提升,并且能够更准确地跟踪铰接部件的运动轨迹。
🎯 应用场景
ArtiPoint在机器人操作、增强现实和虚拟现实等领域具有广泛的应用前景。例如,机器人可以利用ArtiPoint来理解和操作铰接物体,从而实现更复杂的任务。在AR/VR中,ArtiPoint可以用于创建更逼真的交互体验,例如用户可以自然地操纵虚拟的铰接物体。
📄 摘要(原文)
Understanding the 3D motion of articulated objects is essential in robotic scene understanding, mobile manipulation, and motion planning. Prior methods for articulation estimation have primarily focused on controlled settings, assuming either fixed camera viewpoints or direct observations of various object states, which tend to fail in more realistic unconstrained environments. In contrast, humans effortlessly infer articulation by watching others manipulate objects. Inspired by this, we introduce ArtiPoint, a novel estimation framework that can infer articulated object models under dynamic camera motion and partial observability. By combining deep point tracking with a factor graph optimization framework, ArtiPoint robustly estimates articulated part trajectories and articulation axes directly from raw RGB-D videos. To foster future research in this domain, we introduce Arti4D, the first ego-centric in-the-wild dataset that captures articulated object interactions at a scene level, accompanied by articulation labels and ground-truth camera poses. We benchmark ArtiPoint against a range of classical and learning-based baselines, demonstrating its superior performance on Arti4D. We make code and Arti4D publicly available at https://artipoint.cs.uni-freiburg.de.