ArtReg: Visuo-Tactile based Pose Tracking and Manipulation of Unseen Articulated Objects

作者: Prajval Kumar Murali, Mohsen Kaboli

分类: cs.RO, cs.CV

发布日期: 2025-11-09

备注: Under review

💡 一句话要点

提出ArtReg，用于未知铰接物体的视觉-触觉融合位姿跟踪与操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知 (Perception & SLAM)

关键词: 视觉触觉融合 位姿跟踪 铰接物体 机器人操作 无迹卡尔曼滤波

📋 核心要点

现有方法难以在未知物体几何和运动学属性的情况下，实现对铰接物体的感知、跟踪和操作。
ArtReg融合视觉和触觉信息，利用无迹卡尔曼滤波器在SE(3)李群上进行点云配准，实现位姿跟踪。
实验表明，ArtReg在位姿精度上优于现有方法，并能处理不同质心、弱光等复杂场景。

📝 摘要（中文）

本文提出了一种新颖的方法，用于在机器人交互过程中，对未见过的物体（单个、多个或铰接的）进行基于视觉-触觉的跟踪，无需预先了解物体的几何形状或运动学属性。该方法名为ArtReg（铰接配准），它将视觉-触觉点云集成到SE(3)李群中的无迹卡尔曼滤波器公式中，用于点云配准。ArtReg用于通过有目的的操作动作（例如，使用双机器人团队进行推或保持-拉动）来检测物体中可能的铰接关节。此外，我们利用ArtReg开发了一个闭环控制器，用于铰接物体的目标驱动操作，以将物体移动到所需的位姿配置。通过真实的机器人实验，我们在各种类型的未知物体上广泛评估了我们的方法。我们还通过评估具有不同质心、弱光条件和具有挑战性的视觉背景的物体，证明了我们方法的鲁棒性。此外，我们在铰接物体的标准数据集上对我们的方法进行了基准测试，并证明了与最先进的方法相比，在位姿精度方面有所提高。实验表明，利用视觉-触觉信息的鲁棒和准确的位姿跟踪使机器人能够感知和与未见过的复杂铰接物体（具有旋转或棱柱关节）进行交互。

🔬 方法详解

问题定义：现有方法在机器人操作未知铰接物体时，需要预先知道物体的几何形状和运动学属性，这限制了机器人的泛化能力。因此，需要一种方法能够在未知物体信息的情况下，实现对铰接物体的位姿跟踪和操作。现有方法在复杂环境和光照条件下鲁棒性较差，且精度有待提高。

核心思路：ArtReg的核心思路是融合视觉和触觉信息，利用触觉信息弥补视觉信息的不足，提高位姿跟踪的鲁棒性和精度。通过主动操作，例如推拉，来探索物体的运动学结构，从而更好地估计铰接关节的位置和运动参数。使用无迹卡尔曼滤波器（UKF）在李群SE(3)上进行点云配准，保证了位姿估计的合理性。

技术框架：ArtReg的整体框架包括以下几个主要模块：1) 视觉-触觉数据采集：使用视觉传感器和触觉传感器获取物体的点云数据和触觉信息。2) 点云配准：使用无迹卡尔曼滤波器在SE(3)李群上进行点云配准，估计物体的位姿。3) 铰接关节检测：通过主动操作，例如推拉，来探索物体的运动学结构，并检测可能的铰接关节。4) 闭环控制：利用ArtReg估计的位姿信息，设计闭环控制器，实现对铰接物体的目标驱动操作。

关键创新：ArtReg的关键创新在于：1) 融合视觉和触觉信息，提高位姿跟踪的鲁棒性和精度。2) 使用无迹卡尔曼滤波器在SE(3)李群上进行点云配准，保证了位姿估计的合理性。3) 通过主动操作来探索物体的运动学结构，从而更好地估计铰接关节的位置和运动参数。与现有方法相比，ArtReg不需要预先知道物体的几何形状和运动学属性，具有更好的泛化能力。

关键设计：ArtReg的关键设计包括：1) 使用无迹卡尔曼滤波器（UKF）进行位姿估计，UKF不需要计算雅可比矩阵，适用于非线性系统。2) 在SE(3)李群上进行点云配准，保证了位姿估计的合理性。3) 设计了特定的操作策略，例如推拉，来探索物体的运动学结构。4) 损失函数的设计，用于优化位姿估计和铰接关节参数。

📊 实验亮点

实验结果表明，ArtReg在位姿精度方面优于现有方法。在铰接物体的标准数据集上，ArtReg的位姿精度提高了显著百分比（具体数值未知）。此外，ArtReg在不同质心、弱光条件和具有挑战性的视觉背景下表现出良好的鲁棒性，证明了其在实际应用中的可行性。

🎯 应用场景

ArtReg可应用于机器人操作的各个领域，例如：1) 智能家居：机器人可以操作各种家用电器，例如门、抽屉、橱柜等。2) 工业自动化：机器人可以操作各种工具和设备，例如阀门、开关等。3) 医疗机器人：机器人可以辅助医生进行手术操作，例如操作手术器械。该研究具有重要的实际价值和广阔的应用前景，能够提升机器人在复杂环境下的操作能力。

📄 摘要（原文）

Robots operating in real-world environments frequently encounter unknown objects with complex structures and articulated components, such as doors, drawers, cabinets, and tools. The ability to perceive, track, and manipulate these objects without prior knowledge of their geometry or kinematic properties remains a fundamental challenge in robotics. In this work, we present a novel method for visuo-tactile-based tracking of unseen objects (single, multiple, or articulated) during robotic interaction without assuming any prior knowledge regarding object shape or dynamics. Our novel pose tracking approach termed ArtReg (stands for Articulated Registration) integrates visuo-tactile point clouds in an unscented Kalman Filter formulation in the SE(3) Lie Group for point cloud registration. ArtReg is used to detect possible articulated joints in objects using purposeful manipulation maneuvers such as pushing or hold-pulling with a two-robot team. Furthermore, we leverage ArtReg to develop a closed-loop controller for goal-driven manipulation of articulated objects to move the object into the desired pose configuration. We have extensively evaluated our approach on various types of unknown objects through real robot experiments. We also demonstrate the robustness of our method by evaluating objects with varying center of mass, low-light conditions, and with challenging visual backgrounds. Furthermore, we benchmarked our approach on a standard dataset of articulated objects and demonstrated improved performance in terms of pose accuracy compared to state-of-the-art methods. Our experiments indicate that robust and accurate pose tracking leveraging visuo-tactile information enables robots to perceive and interact with unseen complex articulated objects (with revolute or prismatic joints).

ArtReg: Visuo-Tactile based Pose Tracking and Manipulation of Unseen Articulated Objects

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册