Generalizable Domain Adaptation for Sim-and-Real Policy Co-Training

📄 arXiv: 2509.18631v2 📥 PDF

作者: Shuo Cheng, Liqian Ma, Zhenyang Chen, Ajay Mandlekar, Caelan Garrett, Danfei Xu

分类: cs.RO, cs.AI

发布日期: 2025-09-23 (更新: 2025-09-24)


💡 一句话要点

提出基于最优传输的Sim-to-Real策略协同训练框架,提升机器人操作泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人操作 领域自适应 Sim-to-Real 行为克隆 最优传输 协同训练 深度学习

📋 核心要点

  1. 真实世界机器人操作演示数据获取成本高昂,而直接使用模拟数据训练策略存在Sim-to-Real的领域差异。
  2. 论文提出一种基于最优传输的协同训练框架,通过对齐模拟和真实数据的观测-动作联合分布,学习领域不变的特征。
  3. 实验表明,该方法能有效利用模拟数据,显著提升真实世界操作成功率,并具备一定的泛化能力。

📝 摘要(中文)

本文提出了一种统一的模拟-真实协同训练框架,用于学习可泛化的机器人操作策略。该框架主要利用模拟数据,仅需少量真实世界演示。核心思想是学习一个领域不变且与任务相关的特征空间。关键在于对齐跨领域的观测及其对应动作的联合分布,这比仅对齐观测的边缘分布提供了更丰富的信号。通过在协同训练框架中嵌入受最优传输(OT)启发的损失,并将其扩展到非平衡OT框架以处理模拟数据丰富和真实数据有限之间的不平衡。在具有挑战性的操作任务上验证了该方法,表明其可以利用丰富的模拟数据,在真实世界的成功率上提高高达30%,甚至可以泛化到仅在模拟中看到的场景。

🔬 方法详解

问题定义:现有基于行为克隆的机器人操作方法依赖大量真实数据,获取成本高。利用模拟数据进行训练可以降低成本,但由于模拟环境与真实环境存在差异(Sim-to-Real gap),导致策略在真实环境中的性能下降。因此,如何利用有限的真实数据和大量的模拟数据,训练出具有良好泛化能力的机器人操作策略是一个关键问题。

核心思路:论文的核心思路是通过学习领域不变的特征表示,缩小模拟环境和真实环境之间的差距。与以往仅对齐观测的边缘分布的方法不同,本文提出对齐观测和动作的联合分布,认为动作信息能够提供更丰富的领域对齐信号。通过最小化模拟和真实数据在联合分布上的差异,可以学习到更具泛化性的策略。

技术框架:该框架是一个Sim-and-Real协同训练流程。首先,分别从模拟环境和真实环境中收集数据。然后,利用一个共享的神经网络提取观测和动作的特征表示。接着,使用一个基于最优传输(OT)的损失函数来对齐模拟和真实数据的联合分布。最后,使用行为克隆损失来训练策略。整个流程迭代进行,不断优化特征提取器和策略网络。

关键创新:最重要的创新点在于提出了基于最优传输的联合分布对齐方法。传统的领域自适应方法通常只关注观测的边缘分布对齐,忽略了动作信息。本文通过对齐观测和动作的联合分布,能够更有效地缩小领域差异,提高策略的泛化能力。此外,针对模拟数据和真实数据量不平衡的问题,论文还提出了非平衡最优传输方法。

关键设计:论文使用了基于神经网络的特征提取器,将观测和动作映射到高维特征空间。最优传输损失函数采用Sinkhorn距离进行计算,以提高计算效率。为了处理数据不平衡问题,使用了非平衡最优传输,允许模拟和真实数据在分布对齐时存在一定的质量差异。具体的损失函数包括行为克隆损失和最优传输损失,通过调整权重来平衡两个损失函数的影响。

📊 实验亮点

实验结果表明,该方法在多个具有挑战性的机器人操作任务上取得了显著的性能提升。例如,在真实世界的操作成功率上,相比于基线方法,该方法最高提升了30%。此外,该方法还能够泛化到仅在模拟环境中见过的场景,证明了其良好的泛化能力。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如物体抓取、装配、导航等。通过利用廉价的模拟数据和少量真实数据,可以快速训练出适用于真实环境的机器人策略,降低了机器人部署的成本和难度。该方法在工业自动化、家庭服务机器人等领域具有广泛的应用前景。

📄 摘要(原文)

Behavior cloning has shown promise for robot manipulation, but real-world demonstrations are costly to acquire at scale. While simulated data offers a scalable alternative, particularly with advances in automated demonstration generation, transferring policies to the real world is hampered by various simulation and real domain gaps. In this work, we propose a unified sim-and-real co-training framework for learning generalizable manipulation policies that primarily leverages simulation and only requires a few real-world demonstrations. Central to our approach is learning a domain-invariant, task-relevant feature space. Our key insight is that aligning the joint distributions of observations and their corresponding actions across domains provides a richer signal than aligning observations (marginals) alone. We achieve this by embedding an Optimal Transport (OT)-inspired loss within the co-training framework, and extend this to an Unbalanced OT framework to handle the imbalance between abundant simulation data and limited real-world examples. We validate our method on challenging manipulation tasks, showing it can leverage abundant simulation data to achieve up to a 30% improvement in the real-world success rate and even generalize to scenarios seen only in simulation.