CEDex: Cross-Embodiment Dexterous Grasp Generation at Scale from Human-like Contact Representations

📄 arXiv: 2509.24661v1 📥 PDF

作者: Zhiyuan Wu, Rolandos Alexandros Potamias, Xuyang Zhang, Zhongqun Zhang, Jiankang Deng, Shan Luo

分类: cs.RO, cs.CV

发布日期: 2025-09-29


💡 一句话要点

CEDex:通过类人接触表示大规模生成跨具身灵巧抓取

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)

关键词: 跨具身抓取 灵巧操作 机器人运动学 类人接触表示 条件变分自动编码器

📋 核心要点

  1. 现有跨具身灵巧抓取方法依赖物理优化或人工标注,缺乏类人运动学理解,数据规模受限。
  2. CEDex通过对齐机器人运动学模型与类人接触表示,桥接人类抓取和机器人运动学,实现大规模抓取生成。
  3. 实验表明,CEDex优于现有方法,并构建了包含2000万抓取姿态的大规模跨具身抓取数据集。

📝 摘要(中文)

跨具身灵巧抓取合成旨在为具有不同形态的各种机器人手自适应地生成和优化抓取姿态。这种能力对于在不同环境中实现通用的机器人操作至关重要,并且需要大量的可靠和多样化的抓取数据,以进行有效的模型训练和鲁棒的泛化。然而,现有的方法要么依赖于缺乏类人运动学理解的基于物理的优化,要么需要广泛的手动数据收集过程,而这些过程仅限于拟人结构。在本文中,我们提出了CEDex,一种新颖的大规模跨具身灵巧抓取合成方法,它通过对齐机器人运动学模型与生成的类人接触表示来桥接人类抓取运动学和机器人运动学。给定一个物体的点云和一个任意的机器人手模型,CEDex首先使用在人类接触数据上预训练的条件变分自动编码器生成类人接触表示。然后,它通过拓扑合并执行运动学人类接触对齐,以将多个人手部分整合到统一的机器人组件中,然后使用基于有符号距离场的抓取优化以及物理感知约束。使用CEDex,我们构建了迄今为止最大的跨具身抓取数据集,包括四种夹持器类型的50万个对象,总共2000万个抓取姿态。大量的实验表明,CEDex优于最先进的方法,并且我们的数据集受益于具有高质量多样化抓取的跨具身抓取学习。

🔬 方法详解

问题定义:论文旨在解决跨具身灵巧抓取合成问题,即如何为不同形态的机器人手生成和优化抓取姿态。现有方法主要存在两个痛点:一是依赖于物理引擎的优化,缺乏对人类抓取运动学的理解,导致生成的抓取姿态不自然;二是依赖于人工标注数据,数据规模有限,难以训练出泛化能力强的模型。

核心思路:论文的核心思路是利用人类的抓取经验来指导机器人抓取姿态的生成。具体来说,首先生成类人接触表示,然后将机器人运动学模型与这些类人接触表示对齐,从而将人类的抓取知识迁移到机器人上。这种方法可以生成更自然、更鲁棒的抓取姿态,并且可以利用大量的人类抓取数据来提高模型的泛化能力。

技术框架:CEDex的整体框架包括以下几个主要阶段: 1. 类人接触表示生成:使用条件变分自动编码器(CVAE)从物体的点云生成类人接触表示。 2. 运动学人类接触对齐:通过拓扑合并将多个人手部分整合到统一的机器人组件中,实现机器人运动学模型与类人接触表示的对齐。 3. 抓取优化:使用基于有符号距离场(SDF)的抓取优化方法,结合物理感知约束,对抓取姿态进行优化。 4. 数据集构建:利用CEDex生成大量抓取数据,构建大规模跨具身抓取数据集。

关键创新:论文的关键创新在于提出了一个将人类抓取运动学知识迁移到机器人上的框架。具体来说,通过生成类人接触表示,并将机器人运动学模型与这些表示对齐,实现了人类抓取经验的迁移。这种方法可以生成更自然、更鲁棒的抓取姿态,并且可以利用大量的人类抓取数据来提高模型的泛化能力。

关键设计: * 条件变分自动编码器(CVAE):用于生成类人接触表示,其条件输入为物体的点云。 * 拓扑合并:用于将多个人手部分整合到统一的机器人组件中,实现机器人运动学模型与类人接触表示的对齐。 * 基于有符号距离场(SDF)的抓取优化:用于对抓取姿态进行优化,其目标是最大化抓取的稳定性,同时满足物理约束。

📊 实验亮点

CEDex在跨具身抓取合成方面优于现有方法,并构建了包含50万个对象和2000万个抓取姿态的大规模数据集。实验结果表明,使用CEDex生成的数据集可以有效提升跨具身抓取学习的性能,生成高质量且多样化的抓取姿态。

🎯 应用场景

该研究成果可广泛应用于机器人操作领域,例如工业自动化、家庭服务机器人、医疗机器人等。通过生成高质量的跨具身抓取姿态,可以使机器人更好地适应不同的物体和环境,提高其操作能力和效率。此外,该研究构建的大规模跨具身抓取数据集,可以为其他研究者提供宝贵的数据资源,促进机器人抓取领域的发展。

📄 摘要(原文)

Cross-embodiment dexterous grasp synthesis refers to adaptively generating and optimizing grasps for various robotic hands with different morphologies. This capability is crucial for achieving versatile robotic manipulation in diverse environments and requires substantial amounts of reliable and diverse grasp data for effective model training and robust generalization. However, existing approaches either rely on physics-based optimization that lacks human-like kinematic understanding or require extensive manual data collection processes that are limited to anthropomorphic structures. In this paper, we propose CEDex, a novel cross-embodiment dexterous grasp synthesis method at scale that bridges human grasping kinematics and robot kinematics by aligning robot kinematic models with generated human-like contact representations. Given an object's point cloud and an arbitrary robotic hand model, CEDex first generates human-like contact representations using a Conditional Variational Auto-encoder pretrained on human contact data. It then performs kinematic human contact alignment through topological merging to consolidate multiple human hand parts into unified robot components, followed by a signed distance field-based grasp optimization with physics-aware constraints. Using CEDex, we construct the largest cross-embodiment grasp dataset to date, comprising 500K objects across four gripper types with 20M total grasps. Extensive experiments show that CEDex outperforms state-of-the-art approaches and our dataset benefits cross-embodiment grasp learning with high-quality diverse grasps.