EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

作者: Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp Wu

分类: cs.RO

发布日期: 2025-10-31

💡 一句话要点

EgoMI：从以自我为中心的人类演示中学习主动视觉和全身操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 模仿学习 机器人操作 主动视觉 具身智能 人机交互

📋 核心要点

现有机器人模仿学习方法难以处理人类演示数据中动态的头部运动，导致人机具身差距和策略性能下降。
EgoMI框架通过捕获同步的末端执行器和主动头部轨迹，并结合记忆增强策略来处理快速变化的头部视点。
实验表明，在双臂机器人上，显式建模头部运动的策略优于基线方法，有效弥合了人机具身差距。

📝 摘要（中文）

本研究提出了一种基于人类演示的模仿学习方法，用于机器人技能习得。由于人机之间的具身差距，以自我为中心的人类数据带来了根本性的挑战。在操作过程中，人类会主动协调头部和手部的运动，不断调整视角，并使用预先的视觉注视搜索策略来定位相关物体。这些行为产生了动态的、任务驱动的头部运动，而静态的机器人传感系统无法复制这些运动，从而导致显著的分布偏移，降低策略性能。我们提出了EgoMI（Egocentric Manipulation Interface），该框架可以捕获操作任务期间同步的末端执行器和主动头部轨迹，从而生成可以重新定位到兼容的半人形机器人上的数据。为了处理快速且范围广泛的头部视点变化，我们引入了一种记忆增强策略，该策略有选择地结合了历史观察。我们在配备了电动相机头的双臂机器人上评估了我们的方法，发现具有显式头部运动建模的策略始终优于基线方法。结果表明，通过EgoMI进行协调的手眼学习有效地弥合了人机具身差距，从而在半人形机器人上实现了鲁棒的模仿学习。

🔬 方法详解

问题定义：现有机器人模仿学习方法在处理以人为中心的数据时，面临着严重的具身差距问题。人类在操作物体时，头部会进行主动的、任务驱动的运动，以优化视角和定位目标。传统的机器人静态感知系统无法复制这种动态的头部运动，导致训练数据和机器人实际操作环境之间存在显著的分布差异，从而降低了模仿学习策略的性能。

核心思路：EgoMI的核心思路是通过模仿人类的主动视觉行为来弥合人机具身差距。具体来说，EgoMI框架同时记录人类操作过程中的手部运动轨迹和头部运动轨迹，并将这些数据用于训练机器人的控制策略。通过显式地建模和控制机器人的头部运动，EgoMI使得机器人能够像人类一样主动地调整视角，从而更好地感知和操作物体。

技术框架：EgoMI框架主要包含两个部分：数据采集和策略学习。数据采集部分使用Egocentric Manipulation Interface来记录人类操作过程中的手部和头部运动轨迹。策略学习部分使用模仿学习算法，根据采集到的数据训练机器人的控制策略。为了处理快速变化的头部视点，EgoMI引入了一种记忆增强策略，该策略可以有选择地结合历史观察，从而提高策略的鲁棒性。

关键创新：EgoMI最重要的技术创新点在于它显式地建模和控制机器人的头部运动。与传统的机器人模仿学习方法不同，EgoMI不仅学习手部运动轨迹，还学习头部运动轨迹。通过同时控制手部和头部运动，EgoMI使得机器人能够像人类一样主动地调整视角，从而更好地感知和操作物体。

关键设计：EgoMI的关键设计包括：1) 使用同步的末端执行器和主动头部轨迹数据进行训练；2) 引入记忆增强策略来处理快速变化的头部视点；3) 使用模仿学习算法来训练机器人的控制策略。具体的网络结构和损失函数等技术细节在论文中进行了详细描述。

📊 实验亮点

实验结果表明，在配备了电动相机头的双臂机器人上，使用EgoMI训练的策略在操作任务中表现出显著的优势。与没有显式建模头部运动的基线方法相比，EgoMI能够更有效地弥合人机具身差距，提高策略的鲁棒性和泛化能力。具体性能数据和提升幅度在论文中进行了详细展示。

🎯 应用场景

EgoMI技术具有广泛的应用前景，例如：远程操作、自动化装配、医疗机器人、家庭服务机器人等。通过模仿人类的操作行为，EgoMI可以使机器人更加智能、灵活和安全。未来，EgoMI有望成为机器人技术领域的一项重要技术，推动机器人技术的进一步发展。

📄 摘要（原文）

Imitation learning from human demonstrations offers a promising approach for robot skill acquisition, but egocentric human data introduces fundamental challenges due to the embodiment gap. During manipulation, humans actively coordinate head and hand movements, continuously reposition their viewpoint and use pre-action visual fixation search strategies to locate relevant objects. These behaviors create dynamic, task-driven head motions that static robot sensing systems cannot replicate, leading to a significant distribution shift that degrades policy performance. We present EgoMI (Egocentric Manipulation Interface), a framework that captures synchronized end-effector and active head trajectories during manipulation tasks, resulting in data that can be retargeted to compatible semi-humanoid robot embodiments. To handle rapid and wide-spanning head viewpoint changes, we introduce a memory-augmented policy that selectively incorporates historical observations. We evaluate our approach on a bimanual robot equipped with an actuated camera head and find that policies with explicit head-motion modeling consistently outperform baseline methods. Results suggest that coordinated hand-eye learning with EgoMI effectively bridges the human-robot embodiment gap for robust imitation learning on semi-humanoid embodiments. Project page: https://egocentric-manipulation-interface.github.io

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册