In-Hand Manipulation of Articulated Tools with Dexterous Robot Hands with Sim-to-Real Transfer

📄 arXiv: 2509.23075v2 📥 PDF

作者: Soofiyan Atar, Daniel Huang, Florian Richter, Michael Yip

分类: cs.RO

发布日期: 2025-09-27 (更新: 2025-10-06)


💡 一句话要点

提出基于强化学习和触觉反馈的灵巧手工具操作Sim-to-Real迁移方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 灵巧手操作 铰接工具 强化学习 Sim-to-Real 触觉反馈 机器人控制 交叉注意力

📋 核心要点

  1. 现有方法在铰接工具操作中,由于接触动力学建模不足和关节现象复杂,导致策略鲁棒性差。
  2. 论文提出一种基于强化学习和触觉反馈的Sim-to-Real迁移方法,利用传感器信息在线适应关节属性。
  3. 实验证明该方法在多种真实铰接工具上实现了鲁棒的Sim-to-Real迁移,并提高了抗扰动能力。

📝 摘要(中文)

本文提出了一种基于强化学习(RL)和Sim-to-Real迁移的灵巧机器人手对铰接工具的操作方法。由于接触动力学和关节现象(如摩擦、静摩擦、间隙等)建模不足,现有策略在应用于铰接机构时仍然脆弱。本文通过使用具有相对人手减少的关节和运动冗余的机器人手进行灵巧的工具操作来解决这一挑战。该控制器通过从硬件演示中学习的传感器驱动的细化来增强模拟训练的基础策略,以本体感受和目标关节状态为条件,同时通过基于交叉注意力的集成将整个手的触觉和力反馈与策略的内部动作意图融合。这种设计能够在线适应特定实例的关节属性,稳定接触交互,调节内力,并在扰动下协调耦合连杆运动。我们在各种真实世界的例子中验证了我们的方法,包括剪刀、钳子、微创手术工具和订书机。我们实现了从模拟到硬件的鲁棒迁移,提高了抗扰动能力,并推广到以前未见过的铰接工具,从而减少了对接触丰富环境中精确物理建模的依赖。

🔬 方法详解

问题定义:现有方法在机器人灵巧手操作铰接工具时,面临接触动力学复杂、关节摩擦等现象难以建模的问题,导致仿真策略难以直接迁移到真实环境,鲁棒性较差。尤其是在高精度要求的操作任务中,这些问题更加突出。

核心思路:论文的核心思路是利用强化学习在仿真环境中训练一个基础策略,然后通过硬件演示学习一个传感器驱动的细化模块,该模块能够根据真实环境中的触觉、力觉和本体感受信息,对基础策略的动作进行调整,从而实现Sim-to-Real的迁移。这种方法的核心在于融合了仿真学习的通用性和真实环境感知的适应性。

技术框架:整体框架包含两个主要部分:1) 基于强化学习的仿真训练:在仿真环境中训练一个基础策略,该策略以目标关节状态为输入,输出机器人手的动作。2) 基于硬件演示的策略细化:收集真实环境中的触觉、力觉和本体感受数据,训练一个细化模块,该模块以这些传感器数据和基础策略的动作意图为输入,输出对基础策略动作的调整量。这两个部分通过交叉注意力机制进行融合,使得细化模块能够关注与当前任务相关的传感器信息。

关键创新:论文的关键创新在于:1) 提出了一种传感器驱动的策略细化方法,能够有效地利用真实环境中的触觉和力觉信息,提高策略的鲁棒性和适应性。2) 使用交叉注意力机制将传感器信息与基础策略的动作意图进行融合,使得细化模块能够更好地理解当前任务的状态。3) 验证了该方法在多种真实铰接工具上的有效性,证明了其具有良好的泛化能力。

关键设计:在策略细化模块中,使用了交叉注意力机制来融合触觉、力觉和本体感受信息。具体来说,将传感器数据和基础策略的动作意图分别作为query和key/value,通过计算注意力权重来确定哪些传感器信息对当前任务最重要。此外,论文还使用了合适的损失函数来训练细化模块,例如,可以使用L1损失或L2损失来衡量细化后的动作与目标动作之间的差距。

📊 实验亮点

实验结果表明,该方法在多种真实铰接工具(包括剪刀、钳子、微创手术工具和订书机)上实现了鲁棒的Sim-to-Real迁移。与直接使用仿真策略相比,该方法能够显著提高操作的成功率和稳定性,并具有更强的抗扰动能力。此外,该方法还能够泛化到以前未见过的铰接工具,表明其具有良好的泛化能力。

🎯 应用场景

该研究成果可应用于自动化装配、医疗手术机器人、精密仪器操作等领域。例如,在微创手术中,医生可以通过机器人手精确地操作手术器械,完成复杂的切割、缝合等操作。在自动化装配线上,机器人可以灵活地操作各种工具,完成产品的组装任务。该研究有助于提高机器人操作的智能化水平,降低对人工操作的依赖。

📄 摘要(原文)

Reinforcement learning (RL) and sim-to-real transfer have advanced robotic manipulation of rigid objects. Yet, policies remain brittle when applied to articulated mechanisms due to contact-rich dynamics and under-modeled joint phenomena such as friction, stiction, backlash, and clearances. We address this challenge through dexterous in-hand manipulation of articulated tools using a robotic hand with reduced articulation and kinematic redundancy relative to the human hand. Our controller augments a simulation-trained base policy with a sensor-driven refinement learned from hardware demonstrations, conditioning on proprioception and target articulation states while fusing whole-hand tactile and force feedback with the policy's internal action intent via cross-attention-based integration. This design enables online adaptation to instance-specific articulation properties, stabilizes contact interactions, regulates internal forces, and coordinates coupled-link motion under perturbations. We validate our approach across a diversity of real-world examples, including scissors, pliers, minimally invasive surgical tools, and staplers. We achieve robust transfer from simulation to hardware, improved disturbance resilience, and generalization to previously unseen articulated tools, thereby reducing reliance on precise physical modeling in contact-rich settings.