RaC: Robot Learning for Long-Horizon Tasks by Scaling Recovery and Correction
作者: Zheyuan Hu, Robyn Wu, Naveen Enock, Jasmine Li, Riya Kadakia, Zackory Erickson, Aviral Kumar
分类: cs.RO, cs.LG
发布日期: 2025-09-09
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
RaC:通过扩展恢复与纠正能力实现机器人长时程任务学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人学习 模仿学习 人机协作 长时程任务 恢复与纠正
📋 核心要点
- 现有机器人模仿学习方法在长时程任务中,即使有大量专家数据,也难以达到理想性能,主要瓶颈在于专家数据收集效率低。
- RaC方法通过引入人机协作训练阶段,利用人类干预轨迹(包含恢复和纠正行为)来微调机器人策略,提升其适应性和鲁棒性。
- 实验表明,RaC在多个真实和模拟任务中,使用更少的数据和时间,显著优于现有技术,并且性能随恢复操作次数线性提升。
📝 摘要(中文)
现有的机器人模仿学习方法在大量人类演示数据上训练具有表达能力的策略架构。然而,即使使用数千个专家演示,在富接触、可变形物体和长时程任务上的性能也远低于完美执行。这是由于现有基于人类遥操作的“专家”数据收集程序效率低下。为了解决这个问题,我们引入了RaC,这是一种在模仿学习预训练后,在人机协作的rollout上进行训练的新阶段。在RaC中,我们在人类干预轨迹上微调机器人策略,这些轨迹展示了恢复和纠正行为。具体来说,在策略rollout期间,当失败似乎迫在眉睫时,人类操作员会进行干预,首先将机器人倒回到一个熟悉的、分布内的状态,然后提供一个完成当前子任务的纠正片段。训练这种数据组合扩展了机器人技能库,使其包括重试和适应行为,我们表明这对于提高长时程任务的效率和鲁棒性至关重要。在三个真实世界的双手控制任务(衬衫悬挂、气密容器盖密封、外卖盒包装)和一个模拟装配任务中,RaC的性能优于现有技术,数据收集时间和样本减少了10倍。我们还表明,RaC支持测试时扩展:训练后的RaC策略的性能与其表现出的恢复操作次数呈线性关系。学习策略的视频可在https://rac-scaling-robot.github.io/上找到。
🔬 方法详解
问题定义:论文旨在解决机器人模仿学习在长时程、富接触和可变形物体任务中表现不佳的问题。现有方法依赖大量专家演示数据,但数据收集效率低下,特别是当机器人遇到错误或需要调整时,纯粹的模仿学习难以泛化到这些情况,导致性能瓶颈。
核心思路:RaC的核心思路是利用人类的干预来引导机器人学习恢复和纠正行为。当机器人策略在执行任务时出现偏差或即将失败时,人类操作员介入,将机器人状态回退到安全区域,并提供纠正动作序列,帮助机器人完成当前子任务。通过学习这些干预轨迹,机器人可以学会从错误中恢复,并适应不同的环境和情况。
技术框架:RaC的训练过程分为两个阶段:首先是模仿学习预训练阶段,使用专家演示数据训练一个初始策略。然后是人机协作训练阶段,即RaC阶段。在RaC阶段,机器人执行预训练策略,人类操作员监控执行过程。当机器人出现偏差或即将失败时,操作员介入,首先将机器人状态回退到之前的状态(recovery),然后提供纠正动作序列(correction)。这些recovery和correction的轨迹被用来微调机器人策略。
关键创新:RaC的关键创新在于引入了人机协作的训练范式,利用人类的干预来指导机器人学习恢复和纠正行为。与传统的模仿学习方法不同,RaC不仅学习如何执行任务,还学习如何在遇到错误时进行调整和恢复。这种方法可以显著提高机器人在复杂环境中的鲁棒性和适应性。
关键设计:RaC的关键设计包括:1) 人类干预的时机选择:当机器人状态偏离预期轨迹或即将失败时进行干预。2) 状态回退策略:将机器人状态回退到之前的安全状态,以便机器人可以从一个已知的状态重新开始。3) 纠正动作序列的生成:人类操作员提供纠正动作序列,引导机器人完成当前子任务。4) 损失函数的设计:使用模仿学习损失函数来学习人类的纠正动作,并使用正则化项来防止策略过度拟合。
📊 实验亮点
RaC在三个真实世界的双手控制任务(衬衫悬挂、气密容器盖密封、外卖盒包装)和一个模拟装配任务中,显著优于现有技术。具体而言,RaC使用的数据收集时间和样本减少了10倍,同时实现了更高的任务成功率。此外,实验还表明,RaC策略的性能与其在测试时表现出的恢复操作次数呈线性关系,验证了该方法在提升机器人鲁棒性方面的有效性。
🎯 应用场景
RaC方法具有广泛的应用前景,尤其适用于需要高鲁棒性和适应性的机器人任务,如工业自动化、家庭服务机器人、医疗机器人等。例如,在装配线上,机器人可以利用RaC学习如何处理零件错位或装配错误;在家庭环境中,机器人可以学习如何应对意外情况,如物体掉落或碰撞。该方法有望提升机器人在复杂环境中的自主性和可靠性。
📄 摘要(原文)
Modern paradigms for robot imitation train expressive policy architectures on large amounts of human demonstration data. Yet performance on contact-rich, deformable-object, and long-horizon tasks plateau far below perfect execution, even with thousands of expert demonstrations. This is due to the inefficiency of existing ``expert'' data collection procedures based on human teleoperation. To address this issue, we introduce RaC, a new phase of training on human-in-the-loop rollouts after imitation learning pre-training. In RaC, we fine-tune a robotic policy on human intervention trajectories that illustrate recovery and correction behaviors. Specifically, during a policy rollout, human operators intervene when failure appears imminent, first rewinding the robot back to a familiar, in-distribution state and then providing a corrective segment that completes the current sub-task. Training on this data composition expands the robotic skill repertoire to include retry and adaptation behaviors, which we show are crucial for boosting both efficiency and robustness on long-horizon tasks. Across three real-world bimanual control tasks: shirt hanging, airtight container lid sealing, takeout box packing, and a simulated assembly task, RaC outperforms the prior state-of-the-art using 10$\times$ less data collection time and samples. We also show that RaC enables test-time scaling: the performance of the trained RaC policy scales linearly in the number of recovery maneuvers it exhibits. Videos of the learned policy are available at https://rac-scaling-robot.github.io/.