End-to-end RL Improves Dexterous Grasping Policies
作者: Ritvik Singh, Karl Van Wyk, Pieter Abbeel, Jitendra Malik, Nathan Ratliff, Ankur Handa
分类: cs.RO, cs.LG
发布日期: 2025-09-19
备注: See our blog post: https://e2e4robotics.com/
💡 一句话要点
提出解耦模拟器与强化学习的架构,提升灵巧抓取的端到端策略学习效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 灵巧抓取 端到端强化学习 视觉强化学习 解耦架构 深度蒸馏
📋 核心要点
- 现有基于视觉的灵巧抓取强化学习方法受限于内存效率,导致批量大小小,训练困难。
- 论文提出解耦模拟器和强化学习的架构,将它们分配到不同的GPU上,从而增加批量大小。
- 实验表明,该方法在模拟和真实环境中均优于现有方法,尤其是在深度信息蒸馏到RGB图像时。
📝 摘要(中文)
本文探索了扩展基于图像的端到端学习技术,用于机械臂+灵巧手系统的灵巧抓取。与基于状态的强化学习不同,基于视觉的强化学习在内存效率方面较低,导致批量大小相对较小,这不利于像PPO这样的算法。然而,端到端强化学习仍然是一种有吸引力的方法,因为它不像常用的将基于状态的策略提炼到视觉网络中的技术那样,它可以实现涌现式的主动视觉行为。我们发现训练这些策略的一个关键瓶颈是,大多数现有模拟器使用传统的数据并行技术扩展到多个GPU的方式。我们提出了一种新方法,将模拟器和强化学习(包括训练和经验缓冲区)解耦到单独的GPU上。在一个具有四个GPU的节点上,我们让模拟器在其中三个GPU上运行,而PPO在第四个GPU上运行。我们能够证明,在相同数量的GPU下,与之前的标准数据并行基线相比,我们可以将现有环境的数量增加一倍。这使我们能够端到端地训练基于视觉的环境,并使用深度信息,而这些环境之前的性能远低于基线。我们训练并将深度和基于状态的策略提炼到立体RGB网络中,并表明深度提炼可以带来更好的结果,无论是在模拟中还是在现实中。这种改进可能是由于状态和视觉策略之间的可观察性差距造成的,而将深度策略提炼到立体RGB时不存在这种差距。我们进一步表明,解耦模拟带来的批量大小的增加也提高了现实世界的性能。在现实世界中部署时,我们使用端到端策略改进了先前最先进的基于视觉的结果。
🔬 方法详解
问题定义:现有基于视觉的灵巧抓取强化学习方法,特别是端到端方法,面临着内存效率低的挑战。由于需要处理高维图像数据,传统的基于数据并行的GPU扩展方式无法有效利用计算资源,导致批量大小受限,影响了强化学习算法(如PPO)的训练效果。此外,将基于状态的策略蒸馏到视觉网络中,可能存在状态与视觉信息之间的可观察性差距,影响最终性能。
核心思路:论文的核心思路是将模拟器和强化学习过程解耦,并将它们分配到不同的GPU上运行。具体来说,将模拟环境运行在多个GPU上,而将强化学习算法(包括经验缓冲区)运行在另一个GPU上。通过这种方式,可以显著增加批量大小,从而提高训练效率和性能。同时,论文还探索了将深度信息蒸馏到RGB图像中的方法,以弥补状态与视觉信息之间的差距。
技术框架:整体框架包含两个主要部分:模拟器和强化学习算法。模拟器负责生成环境和交互数据,运行在多个GPU上。强化学习算法(PPO)负责根据环境数据更新策略,运行在独立的GPU上。两者通过数据传输进行通信。论文还使用了蒸馏技术,将深度信息或状态信息提炼到RGB图像中,以提高视觉策略的性能。
关键创新:最重要的技术创新点是解耦模拟器和强化学习算法的架构。这种架构能够有效利用GPU资源,显著增加批量大小,从而提高训练效率和性能。与传统的数据并行方法相比,该方法能够更好地扩展到多个GPU,并支持更大规模的环境和更复杂的策略。
关键设计:论文使用了PPO作为强化学习算法,并针对灵巧抓取任务设计了奖励函数。在蒸馏过程中,使用了L2损失函数来最小化深度信息或状态信息与RGB图像之间的差异。网络结构方面,使用了卷积神经网络来处理图像数据,并使用全连接层来输出动作。具体的参数设置(如学习率、批量大小等)在论文中有详细描述。
📊 实验亮点
实验结果表明,所提出的解耦架构能够显著提高训练效率和性能。在相同数量的GPU下,该方法可以将环境数量增加一倍。此外,深度信息蒸馏到RGB图像的方法也能够提高抓取成功率。在真实世界实验中,该方法也优于现有的基于视觉的抓取方法,取得了state-of-the-art的结果。
🎯 应用场景
该研究成果可应用于机器人灵巧操作、自动化装配、医疗手术等领域。通过端到端强化学习,机器人可以直接从视觉输入学习抓取策略,无需人工设计复杂的控制算法。该方法可以提高机器人的自主性和适应性,使其能够更好地完成各种复杂任务,具有重要的实际应用价值。
📄 摘要(原文)
This work explores techniques to scale up image-based end-to-end learning for dexterous grasping with an arm + hand system. Unlike state-based RL, vision-based RL is much more memory inefficient, resulting in relatively low batch sizes, which is not amenable for algorithms like PPO. Nevertheless, it is still an attractive method as unlike the more commonly used techniques which distill state-based policies into vision networks, end-to-end RL can allow for emergent active vision behaviors. We identify a key bottleneck in training these policies is the way most existing simulators scale to multiple GPUs using traditional data parallelism techniques. We propose a new method where we disaggregate the simulator and RL (both training and experience buffers) onto separate GPUs. On a node with four GPUs, we have the simulator running on three of them, and PPO running on the fourth. We are able to show that with the same number of GPUs, we can double the number of existing environments compared to the previous baseline of standard data parallelism. This allows us to train vision-based environments, end-to-end with depth, which were previously performing far worse with the baseline. We train and distill both depth and state-based policies into stereo RGB networks and show that depth distillation leads to better results, both in simulation and reality. This improvement is likely due to the observability gap between state and vision policies which does not exist when distilling depth policies into stereo RGB. We further show that the increased batch size brought about by disaggregated simulation also improves real world performance. When deploying in the real world, we improve upon the previous state-of-the-art vision-based results using our end-to-end policies.