EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

作者: Ryan Punamiya, Dhruv Patel, Patcharapong Aphiwetsa, Pranav Kuppili, Lawrence Y. Zhu, Simar Kareer, Judy Hoffman, Danfei Xu

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-09-23

备注: Accepted at 39th Conference on Neural Information Processing Systems (NeurIPS 2025) and Oral at Conference on Robot Learning (CoRL 2025)

💡 一句话要点

EgoBridge：利用领域自适应实现从第一视角人类数据中泛化模仿学习

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction) 支柱七：动作重定向 (Motion Retargeting)

关键词: 模仿学习 领域自适应 机器人操作 最优传输 第一视角数据

📋 核心要点

现有模仿学习方法难以弥合人类与机器人之间在视觉、传感器和运动学上的领域差异，导致知识迁移受阻。
EgoBridge通过领域自适应，显式对齐人类和机器人数据的策略潜在空间，从而学习领域不变的观测表示。
EgoBridge在真实世界的操作任务中，相比基线方法实现了显著的成功率提升，并能泛化到人类数据中的新场景。

📝 摘要（中文）

第一视角的人类经验数据为扩展机器人操作的端到端模仿学习提供了一个巨大的资源。然而，人类和机器人之间在视觉外观、传感器模态和运动学方面的显著领域差距阻碍了知识转移。本文提出了EgoBridge，一个统一的协同训练框架，它使用领域自适应显式地对齐人类和机器人数据之间的策略潜在空间。通过基于最优传输(OT)的联合策略潜在特征和动作的差异度量，我们学习到的观测表示不仅在人类和机器人领域之间对齐，而且保留了对策略学习至关重要的动作相关信息。在三个真实世界的单臂和双臂操作任务中，EgoBridge比人类增强的跨具身基线实现了44%的显著绝对策略成功率提升。EgoBridge还可以推广到仅在人类数据中出现的新对象、场景和任务，而基线完全失败。

🔬 方法详解

问题定义：论文旨在解决从第一视角人类数据中学习机器人操作策略时，由于人类和机器人之间存在显著领域差异（例如视觉外观、传感器模态、运动学）而导致的知识迁移问题。现有方法难以有效对齐不同领域的数据，导致模仿学习性能下降，泛化能力不足。

核心思路：EgoBridge的核心思路是利用领域自适应技术，显式地对齐人类和机器人数据的策略潜在空间。通过学习领域不变的观测表示，使得机器人能够更好地理解人类的示范，从而实现更有效的模仿学习。这种对齐不仅关注观测的相似性，更重要的是保留了与动作相关的关键信息。

技术框架：EgoBridge采用一个协同训练框架，包含人类数据和机器人数据两个分支。每个分支都包含一个编码器，用于将观测数据映射到潜在空间。一个策略网络基于潜在表示生成动作。关键在于，EgoBridge使用基于最优传输（Optimal Transport, OT）的差异度量来对齐两个领域的潜在空间和动作。该差异度量被用作一个正则化项，在训练过程中鼓励两个领域的潜在表示和动作分布尽可能接近。

关键创新：EgoBridge的关键创新在于使用基于最优传输的差异度量来显式对齐人类和机器人数据的策略潜在空间。与传统的领域自适应方法不同，EgoBridge不仅关注观测的对齐，还考虑了动作的对齐，从而更好地保留了与策略学习相关的关键信息。此外，协同训练框架允许同时利用人类和机器人数据进行学习，进一步提高了模仿学习的性能。

关键设计：EgoBridge使用深度神经网络作为编码器和策略网络。最优传输的计算使用Sinkhorn算法进行近似。损失函数包含三个部分：模仿学习损失（衡量策略网络预测动作与真实动作的差距）、领域对齐损失（基于最优传输的差异度量）和正则化损失（防止过拟合）。具体的网络结构、损失函数权重和优化器参数等细节在论文中有详细描述。

📊 实验亮点

EgoBridge在三个真实世界的单臂和双臂操作任务中，相比于人类增强的跨具身基线，实现了44%的显著绝对策略成功率提升。更重要的是，EgoBridge能够泛化到仅在人类数据中出现的新对象、场景和任务，而基线方法完全失效，这表明EgoBridge具有更强的泛化能力和实用价值。

🎯 应用场景

EgoBridge技术可应用于各种机器人操作任务，尤其是在缺乏大量机器人数据的情况下，可以利用人类示范数据进行模仿学习。例如，它可以用于家庭服务机器人、工业机器人、医疗机器人等，使它们能够通过观察人类的操作来学习新的技能，从而提高机器人的智能化水平和适应性。

📄 摘要（原文）

Egocentric human experience data presents a vast resource for scaling up end-to-end imitation learning for robotic manipulation. However, significant domain gaps in visual appearance, sensor modalities, and kinematics between human and robot impede knowledge transfer. This paper presents EgoBridge, a unified co-training framework that explicitly aligns the policy latent spaces between human and robot data using domain adaptation. Through a measure of discrepancy on the joint policy latent features and actions based on Optimal Transport (OT), we learn observation representations that not only align between the human and robot domain but also preserve the action-relevant information critical for policy learning. EgoBridge achieves a significant absolute policy success rate improvement by 44% over human-augmented cross-embodiment baselines in three real-world single-arm and bimanual manipulation tasks. EgoBridge also generalizes to new objects, scenes, and tasks seen only in human data, where baselines fail entirely. Videos and additional information can be found at https://ego-bridge.github.io

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册