You Only Estimate Once: Unified, One-stage, Real-Time Category-level Articulated Object 6D Pose Estimation for Robotic Grasping
作者: Jingshun Huang, Haitao Lin, Tianyu Wang, Yanwei Fu, Yu-Gang Jiang, Xiangyang Xue
分类: cs.CV, cs.RO
发布日期: 2025-06-06
备注: To appear in ICRA 2025
💡 一句话要点
提出YOEO方法以解决关节物体类别级6D姿态估计问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 关节物体 6D姿态估计 机器人抓取 实时反馈 单阶段方法 实例分割 NPCS表示
📋 核心要点
- 现有方法在关节物体的类别级姿态估计中存在高计算成本和实时性能不足的问题。
- 提出YOEO方法,通过单阶段网络同时实现实例分割和NPCS表示,简化了流程并提高了效率。
- 在GAPart数据集上进行实验,验证了方法的有效性,并在实际应用中实现200Hz的实时反馈。
📝 摘要(中文)
本文针对机器人操作任务中关节物体的类别级姿态估计问题进行研究。现有方法通常采用复杂的多阶段流程,首先在点云中分割部分实例,然后估计归一化部分坐标空间(NPCS)表示以获取6D姿态。这些方法在实时机器人任务中面临高计算成本和低性能的问题。为了解决这些局限性,我们提出了YOEO,一种单阶段方法,能够以端到端的方式同时输出实例分割和NPCS表示。我们使用统一网络生成逐点语义标签和质心偏移,允许来自同一部分实例的点投票给相同的质心。通过聚类算法区分基于估计质心距离的点,最终分离每个实例的NPCS区域,并将其与真实点云对齐以恢复最终姿态和大小。实验结果表明,我们的方法在GAPart数据集上具有良好的姿态估计能力,并在实际环境中以200Hz的速度提供实时视觉反馈,使Kinova机器人能够与未见的关节物体进行交互。
🔬 方法详解
问题定义:本文旨在解决机器人操作中关节物体的类别级6D姿态估计问题。现有方法依赖复杂的多阶段流程,导致计算成本高且实时性能不足。
核心思路:YOEO方法通过单阶段网络设计,能够同时输出实例分割和NPCS表示,从而简化了传统方法的流程,提高了实时性和效率。
技术框架:整体架构包括一个统一的网络,该网络生成逐点的语义标签和质心偏移。通过聚类算法,基于质心距离对点进行区分,最终分离出每个实例的NPCS区域,并与真实点云对齐以恢复姿态和大小。
关键创新:YOEO的最大创新在于其单阶段设计,打破了传统多阶段方法的限制,实现了更高效的姿态估计,特别是在实时应用中表现优异。
关键设计:网络结构采用了统一的卷积网络,损失函数设计考虑了语义分割和姿态估计的联合优化,确保了输出的准确性和一致性。
📊 实验亮点
实验结果显示,YOEO方法在GAPart数据集上实现了显著的姿态估计性能,提供了高达200Hz的实时反馈,成功使Kinova机器人与未见的关节物体进行交互。这一性能在与传统多阶段方法的对比中,展现出明显的提升,证明了其在实际应用中的有效性。
🎯 应用场景
该研究具有广泛的应用潜力,尤其是在机器人抓取、自动化装配和人机交互等领域。通过实时姿态估计,机器人能够更好地理解和操作复杂的关节物体,提升工作效率和安全性。未来,该方法有望在更多实际场景中得到应用,推动智能机器人技术的发展。
📄 摘要(原文)
This paper addresses the problem of category-level pose estimation for articulated objects in robotic manipulation tasks. Recent works have shown promising results in estimating part pose and size at the category level. However, these approaches primarily follow a complex multi-stage pipeline that first segments part instances in the point cloud and then estimates the Normalized Part Coordinate Space (NPCS) representation for 6D poses. These approaches suffer from high computational costs and low performance in real-time robotic tasks. To address these limitations, we propose YOEO, a single-stage method that simultaneously outputs instance segmentation and NPCS representations in an end-to-end manner. We use a unified network to generate point-wise semantic labels and centroid offsets, allowing points from the same part instance to vote for the same centroid. We further utilize a clustering algorithm to distinguish points based on their estimated centroid distances. Finally, we first separate the NPCS region of each instance. Then, we align the separated regions with the real point cloud to recover the final pose and size. Experimental results on the GAPart dataset demonstrate the pose estimation capabilities of our proposed single-shot method. We also deploy our synthetically-trained model in a real-world setting, providing real-time visual feedback at 200Hz, enabling a physical Kinova robot to interact with unseen articulated objects. This showcases the utility and effectiveness of our proposed method.