GES-UniGrasp: A Two-Stage Dexterous Grasping Strategy With Geometry-Based Expert Selection
作者: Fangting Xu, Jilin Zhu, Xiaoming Gu, Jianzhong Tang
分类: cs.RO
发布日期: 2025-09-28
💡 一句话要点
GES-UniGrasp:基于几何专家选择的两阶段灵巧抓取策略
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 灵巧抓取 机器人操作 几何专家选择 强化学习 数据集 物体识别 机器人
📋 核心要点
- 现有强化学习方法依赖抓取先验,导致机器人抓取动作不自然,缺乏拟人性。
- 提出基于几何专家选择(GES)的两阶段抓取框架,提升对不同形状物体的适应性和泛化能力。
- ContactGrasp数据集和GES框架实现了高抓取成功率,训练集99.4%,测试集96.3%,泛化能力强。
📝 摘要(中文)
为了提升智能机器人在现实场景中进行鲁棒且拟人化的灵巧抓取能力,本文提出了ContactGrasp数据集,该数据集显式地考虑了任务相关的腕部方向和拇指-食指捏合协调。数据集包含82个类别共773个物体,为训练拟人化的抓取策略提供了丰富的基础。在此数据集的基础上,我们执行基于几何的聚类,通过形状对物体进行分组,从而实现一个两阶段的基于几何专家选择(GES)框架,该框架在专门的专家中进行选择,以抓取不同的物体几何形状,从而增强对不同形状的适应性和跨类别的泛化能力。我们的方法展示了自然的抓取姿势,并在训练集和测试集上分别实现了99.4%和96.3%的高成功率,展示了强大的泛化能力和高质量的抓取执行。
🔬 方法详解
问题定义:论文旨在解决通用物体灵巧抓取中,现有方法抓取姿势不自然、泛化能力不足的问题。现有方法通常依赖于抓取先验知识,导致抓取动作僵硬,难以适应不同形状的物体。此外,缺乏高质量的抓取数据集也限制了模型的训练效果。
核心思路:论文的核心思路是利用物体的几何形状信息,将物体进行聚类,并为每一类物体训练一个专门的抓取专家。在抓取时,首先根据物体的几何形状选择合适的专家,然后由该专家执行抓取动作。这种方法能够更好地适应不同形状的物体,并生成更自然的抓取姿势。
技术框架:GES-UniGrasp框架包含两个主要阶段:1) 基于几何的物体聚类:使用几何特征对物体进行聚类,将形状相似的物体归为一类。2) 基于专家选择的抓取:为每一类物体训练一个抓取专家,在抓取时,首先根据物体的几何形状选择合适的专家,然后由该专家执行抓取动作。ContactGrasp数据集用于训练和评估模型。
关键创新:论文的关键创新在于提出了基于几何专家选择的两阶段抓取框架。该框架能够根据物体的几何形状自适应地选择合适的抓取策略,从而提高抓取的成功率和泛化能力。此外,ContactGrasp数据集的构建也为灵巧抓取的研究提供了有价值的数据资源。
关键设计:ContactGrasp数据集包含773个物体,82个类别,并显式地标注了任务相关的腕部方向和拇指-食指捏合协调信息。几何聚类采用K-means算法,特征包括点云的形状描述符。抓取专家可以使用各种强化学习算法进行训练,损失函数通常包括抓取成功率、稳定性等指标。
📊 实验亮点
实验结果表明,GES-UniGrasp框架在ContactGrasp数据集上取得了显著的性能提升。在训练集上,抓取成功率达到99.4%,在测试集上达到96.3%。相较于其他基线方法,该方法能够生成更自然的抓取姿势,并具有更强的泛化能力,能够成功抓取未见过的物体。
🎯 应用场景
该研究成果可应用于各种需要灵巧抓取的机器人应用场景,例如:工业自动化中的零件抓取与装配、家庭服务机器人中的物品整理、医疗机器人中的手术辅助等。通过提升机器人抓取的鲁棒性和拟人化程度,可以提高机器人的工作效率和安全性,使其更好地适应复杂多变的环境。
📄 摘要(原文)
Robust and human-like dexterous grasping of general objects is a critical capability for advancing intelligent robotic manipulation in real-world scenarios. However, existing reinforcement learning methods guided by grasp priors often result in unnatural behaviors. In this work, we present \textit{ContactGrasp}, a robotic dexterous pre-grasp and grasp dataset that explicitly accounts for task-relevant wrist orientation and thumb-index pinching coordination. The dataset covers 773 objects in 82 categories, providing a rich foundation for training human-like grasp strategies. Building upon this dataset, we perform geometry-based clustering to group objects by shape, enabling a two-stage Geometry-based Expert Selection (GES) framework that selects among specialized experts for grasping diverse object geometries, thereby enhancing adaptability to diverse shapes and generalization across categories. Our approach demonstrates natural grasp postures and achieves high success rates of 99.4\% and 96.3\% on the train and test sets, respectively, showcasing strong generalization and high-quality grasp execution.