Grasp Like Humans: Learning Generalizable Multi-Fingered Grasping from Human Proprioceptive Sensorimotor Integration
作者: Ce Guo, Xieyuanli Chen, Zhiwen Zeng, Zirui Guo, Yihong Li, Haoran Xiao, Dewen Hu, Huimin Lu
分类: cs.RO, cs.AI
发布日期: 2025-09-10
备注: 20 pages, 19 figures, accepted by IEEE Transactions on Robotics
💡 一句话要点
提出基于触觉-运动感知融合的模仿学习框架,实现机器人通用多指灵巧抓取
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人抓取 模仿学习 触觉感知 运动感知 时空图网络
📋 核心要点
- 现有机器人抓取方法难以有效利用触觉和动觉信息,导致在复杂环境和物体下的抓取性能受限。
- 该论文提出一种基于数据手套的触觉-运动感知预测框架,通过模仿学习将人类的抓取技能迁移到机器人。
- 实验表明,该方法在通用抓取任务中表现良好,包括对可变形物体的抓取,验证了其有效性。
📝 摘要(中文)
触觉和动觉感知对于人类的灵巧操作至关重要,通过本体感觉的传感器运动整合实现对物体的可靠抓取。对于机器人手,即使获取这种触觉和动觉反馈是可行的,但建立从这种感觉反馈到运动动作的直接映射仍然具有挑战性。本文提出了一种新颖的基于手套介导的触觉-运动感知预测框架,用于将人类直观和自然操作中的抓取技能通过模仿学习转移到机器人执行中,并通过包括涉及可变形物体的通用抓取任务验证了其有效性。首先,我们集成了一个数据手套来捕获关节层面的触觉和动觉数据。该手套适用于人类和机器人手,允许从不同场景中的自然人手演示中收集数据。它确保了原始数据格式的一致性,从而可以评估人类和机器人手的抓取。其次,我们基于具有极坐标的图结构,建立了多模态输入的统一表示。我们将形态差异显式地集成到设计的表示中,从而增强了不同演示者和机器人手之间的兼容性。此外,我们引入了触觉-运动时空图网络(TK-STGN),它利用多维子图卷积和基于注意力的LSTM层从图输入中提取时空特征,以预测每个手部关节的基于节点的姿态。然后,这些预测通过力-位置混合映射映射到最终命令。
🔬 方法详解
问题定义:现有机器人抓取方法难以有效利用触觉和动觉信息,尤其是在处理复杂形状或可变形物体时,鲁棒性和泛化性不足。直接从感觉反馈到运动控制的映射关系难以建立,导致机器人难以像人类一样自然灵巧地抓取物体。
核心思路:通过模仿学习,将人类的抓取经验迁移到机器人。核心在于利用数据手套捕获人类抓取过程中的触觉和动觉数据,并学习一个从这些感觉输入到机器人运动控制的映射关系。通过这种方式,机器人可以学习人类的直觉和自然操作方式,从而提高抓取的鲁棒性和泛化性。
技术框架:整体框架包括数据采集、数据表示、模型训练和机器人控制四个主要阶段。首先,使用数据手套采集人类抓取过程中的触觉和动觉数据。然后,将这些数据转换为基于图结构的统一表示,并显式地考虑不同手部形态的差异。接着,使用触觉-运动时空图网络(TK-STGN)学习从图输入到关节状态的映射关系。最后,通过力-位置混合映射将预测的关节状态转换为机器人控制指令。
关键创新:主要创新点在于:1) 提出了一种基于图结构的统一表示方法,能够有效融合触觉和动觉信息,并处理不同手部形态的差异;2) 提出了触觉-运动时空图网络(TK-STGN),能够有效提取时空特征,并预测关节状态;3) 提出了一种基于数据手套的模仿学习框架,能够将人类的抓取技能迁移到机器人。
关键设计:数据表示方面,使用极坐标来表示关节位置,并使用图结构来表示关节之间的关系。TK-STGN网络使用多维子图卷积和基于注意力的LSTM层来提取时空特征。损失函数方面,使用了均方误差损失函数来衡量预测关节状态与真实关节状态之间的差异。力-位置混合映射使用PD控制器来实现精确的力控制和位置控制。
📊 实验亮点
实验结果表明,该方法在通用抓取任务中取得了良好的性能,尤其是在处理可变形物体时,相比于传统方法具有显著优势。具体而言,该方法能够成功抓取各种形状和材质的物体,包括球体、立方体、圆柱体以及毛巾、绳索等可变形物体。性能数据(具体数值未知,原文未提供)表明,该方法在抓取成功率和抓取稳定性方面均优于对比基线。
🎯 应用场景
该研究成果可应用于各种需要灵巧操作的机器人应用场景,例如:工业自动化中的精密装配、医疗机器人中的微创手术、家庭服务机器人中的物品整理等。通过学习人类的抓取技能,机器人可以更好地适应复杂环境,完成各种精细操作,提高工作效率和安全性。
📄 摘要(原文)
Tactile and kinesthetic perceptions are crucial for human dexterous manipulation, enabling reliable grasping of objects via proprioceptive sensorimotor integration. For robotic hands, even though acquiring such tactile and kinesthetic feedback is feasible, establishing a direct mapping from this sensory feedback to motor actions remains challenging. In this paper, we propose a novel glove-mediated tactile-kinematic perception-prediction framework for grasp skill transfer from human intuitive and natural operation to robotic execution based on imitation learning, and its effectiveness is validated through generalized grasping tasks, including those involving deformable objects. Firstly, we integrate a data glove to capture tactile and kinesthetic data at the joint level. The glove is adaptable for both human and robotic hands, allowing data collection from natural human hand demonstrations across different scenarios. It ensures consistency in the raw data format, enabling evaluation of grasping for both human and robotic hands. Secondly, we establish a unified representation of multi-modal inputs based on graph structures with polar coordinates. We explicitly integrate the morphological differences into the designed representation, enhancing the compatibility across different demonstrators and robotic hands. Furthermore, we introduce the Tactile-Kinesthetic Spatio-Temporal Graph Networks (TK-STGN), which leverage multidimensional subgraph convolutions and attention-based LSTM layers to extract spatio-temporal features from graph inputs to predict node-based states for each hand joint. These predictions are then mapped to final commands through a force-position hybrid mapping.