RESample: A Robust Data Augmentation Framework via Exploratory Sampling for Robotic Manipulation
作者: Yuquan Xue, Guanxing Lu, Zhenyu Wu, Chuanrui Zhang, Bofang Jia, Zhengyi Gu, Yansong Tang, Ziwei Wang
分类: cs.RO, cs.AI, cs.LG
发布日期: 2025-10-20 (更新: 2025-10-24)
备注: 9 pages,7 figures, submitted to ICRA2026
💡 一句话要点
RESample:探索式采样增强机器人操作的鲁棒数据增强框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 模仿学习 数据增强 超出分布学习 离线强化学习
📋 核心要点
- 现有模仿学习数据集缺乏失败和恢复数据,导致VLA模型在处理超出分布(OOD)状态时表现不佳。
- RESample框架通过离线强化学习和探索式采样,自动生成并利用OOD数据来增强模型的鲁棒性。
- 实验表明,RESample能显著提升VLA模型在LIBERO基准和真实机器人任务中的稳定性和泛化能力。
📝 摘要(中文)
视觉-语言-动作模型(VLA)在模仿学习中展现了卓越的复杂机器人操作能力。然而,现有的模仿学习数据集仅包含成功的轨迹,缺乏失败或恢复数据,特别是对于超出分布(OOD)的状态,即机器人由于微小扰动或错误而偏离主要策略的状态,这导致VLA模型难以处理偏离训练分布的状态。为此,我们提出了一种通过探索式采样实现的自动化OOD数据增强框架,名为RESample。具体来说,我们首先利用离线强化学习获得一个动作价值网络,该网络能够准确识别当前操作策略下的次优动作。我们进一步通过rollout从轨迹中采样潜在的OOD状态,并设计了一种探索式采样机制,自适应地将这些动作代理纳入训练数据集,以确保效率。随后,我们的框架明确地鼓励VLA从OOD状态中恢复,并增强其对分布偏移的鲁棒性。我们在LIBERO基准以及真实世界的机器人操作任务上进行了广泛的实验,表明RESample始终如一地提高了VLA模型的稳定性和泛化能力。
🔬 方法详解
问题定义:现有的视觉-语言-动作模型(VLA)在机器人操作任务中依赖模仿学习,但训练数据通常只包含成功的轨迹。这导致模型在遇到偏离训练分布的OOD状态时,缺乏有效的恢复策略,鲁棒性较差。尤其是在真实机器人操作中,由于各种扰动,OOD状态难以避免。
核心思路:RESample的核心思路是通过探索式采样,自动生成并利用OOD数据来增强VLA模型的训练。具体来说,利用离线强化学习训练一个动作价值网络,用于评估当前策略下的动作优劣,并以此为指导,在轨迹中采样可能导致OOD状态的动作。然后,将这些OOD状态加入训练集,引导模型学习从这些状态中恢复。
技术框架:RESample框架主要包含以下几个阶段:1) 离线强化学习:利用已有的成功轨迹数据,训练一个动作价值网络,用于评估动作的优劣。2) 探索式采样:通过rollout生成新的轨迹,并利用动作价值网络识别潜在的OOD状态。设计探索式采样机制,自适应地选择有价值的OOD状态加入训练集。3) 模型训练:使用包含原始数据和OOD数据的混合数据集,训练VLA模型。
关键创新:RESample的关键创新在于其自动化的OOD数据生成和选择机制。与手动设计OOD数据或简单地添加随机噪声相比,RESample能够更有效地发现和利用对模型鲁棒性提升最有帮助的OOD状态。动作价值网络的引入,使得采样过程更加智能和高效。
关键设计:RESample的关键设计包括:1) 动作价值网络的训练:使用离线强化学习算法(如Behavior Cloning或Q-learning)训练动作价值网络,使其能够准确评估当前策略下的动作优劣。2) 探索式采样机制:设计一种自适应的采样策略,根据动作价值网络的输出,选择那些可能导致OOD状态的动作。3) 混合数据集的构建:合理设置原始数据和OOD数据的比例,避免OOD数据过多导致模型性能下降。
📊 实验亮点
实验结果表明,RESample在LIBERO基准测试以及真实机器人操作任务中,均能显著提升VLA模型的性能。例如,在LIBERO的特定任务上,RESample使模型的成功率提高了10%-20%。与传统的模仿学习方法相比,RESample能够更好地应对环境扰动和状态偏移,表现出更强的泛化能力和鲁棒性。
🎯 应用场景
RESample框架可广泛应用于各种机器人操作任务,例如物体抓取、装配、导航等。通过提升VLA模型的鲁棒性,可以显著提高机器人在复杂和不确定环境中的适应能力,降低操作失败的风险,从而在工业自动化、家庭服务、医疗辅助等领域发挥重要作用。该方法也有潜力推广到其他模仿学习任务中。
📄 摘要(原文)
Vision-Language-Action models (VLAs) have demonstrated remarkable performance on complex robotic manipulation tasks through imitation learning. However, existing imitation learning datasets contain only successful trajectories and lack failure or recovery data, especially for out-of-distribution (OOD) states where the robot deviates from the main policy due to minor perturbations or errors, leading VLA models to struggle with states deviating from the training distribution. To this end, we propose an automated OOD data augmentation framework named RESample through exploratory sampling. Specifically, we first leverage offline reinforcement learning to obtain an action-value network that accurately identifies sub-optimal actions under the current manipulation policy. We further sample potential OOD states from trajectories via rollout, and design an exploratory sampling mechanism that adaptively incorporates these action proxies into the training dataset to ensure efficiency. Subsequently, our framework explicitly encourages the VLAs to recover from OOD states and enhances their robustness against distributional shifts. We conduct extensive experiments on the LIBERO benchmark as well as real-world robotic manipulation tasks, demonstrating that RESample consistently improves the stability and generalization ability of VLA models.