Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexterous Force-Based Grasping and Manipulation
作者: Haoyu Dong, Zhengmao He, Yang Li, Zhibin Li, Xinyu Yi, Zhe Zhao
分类: cs.RO, cs.AI
发布日期: 2026-01-06
💡 一句话要点
提出基于触觉和力控的零样本Sim-to-Real灵巧操作框架,解决虚实迁移难题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 灵巧操作 Sim-to-Real 强化学习 触觉反馈 力控制
📋 核心要点
- 现有方法难以训练可直接部署在真实硬件上的灵巧手控制策略,主要挑战在于接触物理的复杂性和执行机构的不完美性。
- 论文提出一种基于触觉和力反馈的强化学习框架,通过快速触觉模拟、电流-扭矩校准和执行器动力学建模,实现有效的sim-to-real迁移。
- 实验表明,该策略能够零样本迁移到真实五指灵巧手,实现可控的抓取力跟踪和物体重定向,无需真实环境微调。
📝 摘要(中文)
本文提出了一种实用的sim-to-real强化学习框架,旨在解决灵巧手在真实硬件上部署控制策略的难题。该框架利用密集的触觉反馈和关节扭矩传感来显式地调节物理交互。为了实现有效的sim-to-real迁移,本文引入了:(i)一种计算快速的触觉模拟,通过并行正向运动学计算密集虚拟触觉单元与物体之间的距离,提供强化学习所需的高速率、高分辨率的触觉信号;(ii)一种电流-扭矩校准方法,通过将电机电流映射到关节扭矩,消除了灵巧手上扭矩传感器的需求;(iii)执行器动力学建模,通过随机化非理想效应(如反冲、转矩-速度饱和)来弥合执行器差距。该策略完全在模拟环境中训练,并直接部署到五指手上,无需在机器人上进行微调。实验结果表明,该策略能够稳健地执行两个基本技能:(1)基于命令的可控抓取力跟踪,以及(2)手中物体的重新定向。
🔬 方法详解
问题定义:论文旨在解决灵巧手控制策略从仿真环境到真实环境的迁移问题(Sim-to-Real)。现有方法在处理接触力丰富的物理交互和不完美的执行机构时面临挑战,导致在仿真环境中训练的策略难以直接部署到真实机器人上。现有方法通常需要大量的真实数据进行微调,成本高昂且效率低下。
核心思路:论文的核心思路是通过在仿真环境中精确建模触觉反馈、关节扭矩以及执行机构的非理想特性,从而缩小仿真环境和真实环境之间的差距(Reality Gap)。通过更真实的仿真环境,强化学习算法可以学习到更鲁棒的策略,从而实现零样本的Sim-to-Real迁移。
技术框架:整体框架是一个非对称的Actor-Critic PPO(Proximal Policy Optimization)强化学习流程。该流程完全在仿真环境中进行训练,包括以下几个主要模块:1) 快速触觉模拟器:用于生成高分辨率的触觉数据。2) 电流-扭矩校准模块:用于将电机电流映射到关节扭矩,从而模拟力反馈。3) 执行机构动力学建模模块:用于模拟执行机构的非理想特性,如反冲和转矩-速度饱和。4) PPO训练模块:用于训练控制策略。
关键创新:论文的关键创新在于结合了触觉和力反馈,并对执行机构的非理想特性进行了建模,从而显著缩小了仿真环境和真实环境之间的差距。此外,论文提出的快速触觉模拟方法也提高了训练效率。与现有方法相比,该方法无需在真实环境中进行微调,实现了零样本的Sim-to-Real迁移。
关键设计:在触觉模拟方面,论文采用并行正向运动学计算虚拟触觉单元与物体之间的距离,以实现高效率。在电流-扭矩校准方面,论文建立了一个映射模型,将电机电流转换为关节扭矩。在执行机构动力学建模方面,论文通过随机化反冲、转矩-速度饱和等参数来模拟非理想特性。在PPO训练方面,论文采用了非对称的Actor-Critic结构,并仔细调整了超参数以获得最佳性能。
🖼️ 关键图片
📊 实验亮点
该研究成功地将完全在仿真环境中训练的灵巧手控制策略零样本迁移到真实五指灵巧手上,实现了可控的抓取力跟踪和物体重定向。实验结果表明,该策略能够稳健地执行这些任务,无需在真实环境中进行任何微调。据作者所知,这是首次在多指灵巧手上实现完全在仿真环境中训练并零样本迁移到真实硬件上的可控抓取。
🎯 应用场景
该研究成果可广泛应用于机器人灵巧操作领域,例如工业自动化、医疗手术、家庭服务等。通过零样本Sim-to-Real迁移,可以大大降低机器人控制策略的开发成本和部署难度,加速灵巧机器人在实际场景中的应用。未来,该技术有望应用于更复杂的灵巧操作任务,例如装配、拆卸、精细操作等。
📄 摘要(原文)
Human-like dexterous hands with multiple fingers offer human-level manipulation capabilities, but training control policies that can directly deploy on real hardware remains difficult due to contact-rich physics and imperfect actuation. We close this gap with a practical sim-to-real reinforcement learning (RL) framework that utilizes dense tactile feedback combined with joint torque sensing to explicitly regulate physical interactions. To enable effective sim-to-real transfer, we introduce (i) a computationally fast tactile simulation that computes distances between dense virtual tactile units and the object via parallel forward kinematics, providing high-rate, high-resolution touch signals needed by RL; (ii) a current-to-torque calibration that eliminates the need for torque sensors on dexterous hands by mapping motor current to joint torque; and (iii) actuator dynamics modeling to bridge the actuation gaps with randomization of non-ideal effects such as backlash, torque-speed saturation. Using an asymmetric actor-critic PPO pipeline trained entirely in simulation, our policies deploy directly to a five-finger hand. The resulting policies demonstrated two essential skills: (1) command-based, controllable grasp force tracking, and (2) reorientation of objects in the hand, both of which were robustly executed without fine-tuning on the robot. By combining tactile and torque in the observation space with effective sensing/actuation modeling, our system provides a practical solution to achieve reliable dexterous manipulation. To our knowledge, this is the first demonstration of controllable grasping on a multi-finger dexterous hand trained entirely in simulation and transferred zero-shot on real hardware.