HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations

作者: Xiaomeng Xu, Jisang Park, Han Zhang, Eric Cousineau, Aditya Bhat, Jose Barreiros, Dian Wang, Shuran Song

分类: cs.RO

发布日期: 2026-03-03

💡 一句话要点

HoMMI：从人类演示中学习全身移动操作

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction) 支柱七：动作重定向 (Motion Retargeting)

关键词: 移动操作 人机协作 模仿学习 机器人学习 具身智能

📋 核心要点

现有移动操作方法难以从人类演示中学习，主要挑战在于人与机器人之间的具身差异。
HoMMI通过跨具身手眼策略设计弥合人机差异，包括具身无关的视觉表示和宽松的头部动作表示。
该方法实现了长时程移动操作任务，需要双手和全身协调、导航和主动感知。

📝 摘要（中文）

本文提出了一种全身移动操作界面（HoMMI），这是一个数据收集和策略学习框架，可以直接从无机器人的演示中学习全身移动操作。我们使用以自我为中心的感知增强UMI界面，以捕获移动操作所需的全局上下文，从而实现便携式、无机器人和可扩展的数据收集。然而，简单地结合以自我为中心的感知会在观察和动作空间中引入更大的人机差异，从而使策略迁移变得困难。我们通过一种跨具身的手眼策略设计来显式地弥合这一差距，包括一种与具身无关的视觉表示；一种宽松的头部动作表示；以及一个全身控制器，该控制器通过在机器人特定的物理约束下协调全身运动来实现手眼轨迹。总之，这些使得需要双手和全身协调、导航和主动感知的长时间移动操作任务成为可能。结果最好在以下网址查看：https://hommi-robot.github.io

🔬 方法详解

问题定义：论文旨在解决移动操作任务中，机器人难以直接从人类演示中学习的问题。现有的方法通常需要复杂的机器人模型或者大量的机器人数据，并且难以处理人与机器人之间的具身差异，导致策略迁移困难。

核心思路：论文的核心思路是通过设计一种跨具身的手眼策略，显式地弥合人与机器人之间的差异。具体来说，论文提出了一个全身移动操作界面（HoMMI），该界面使用以自我为中心的感知来捕获全局上下文，并使用具身无关的视觉表示和宽松的头部动作表示来减少人机差异。

技术框架：HoMMI框架主要包含三个模块：1) 数据收集模块：使用UMI界面和以自我为中心的感知来收集人类演示数据。2) 策略学习模块：使用跨具身的手眼策略来学习移动操作策略。该策略包括一个具身无关的视觉表示，一个宽松的头部动作表示，以及一个全身控制器。3) 机器人控制模块：使用全身控制器来实现手眼轨迹，并通过协调全身运动来满足机器人特定的物理约束。

关键创新：论文最重要的技术创新点在于提出了跨具身的手眼策略设计，该设计能够有效地弥合人与机器人之间的具身差异，从而实现从人类演示中学习移动操作策略。与现有方法相比，该方法不需要复杂的机器人模型或者大量的机器人数据，并且能够更好地处理人机差异。

关键设计：论文的关键设计包括：1) 具身无关的视觉表示：使用卷积神经网络来提取图像特征，并使用对抗训练来减少具身信息的影响。2) 宽松的头部动作表示：使用相对位姿来表示头部动作，从而减少人与机器人之间的头部运动差异。3) 全身控制器：使用模型预测控制（MPC）来实现手眼轨迹，并通过优化全身运动来满足机器人特定的物理约束。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了HoMMI框架的有效性。实验结果表明，该方法能够成功地从人类演示中学习移动操作策略，并在真实的机器人上实现了长时程的移动操作任务。与基线方法相比，HoMMI在任务成功率和操作效率方面均取得了显著提升。具体性能数据未知。

🎯 应用场景

该研究成果可应用于各种需要移动操作的场景，例如家庭服务机器人、工业自动化、医疗辅助等。通过从人类演示中学习，机器人可以更快速、更灵活地适应新的任务和环境，从而提高工作效率和服务质量。未来，该技术有望实现更智能、更自主的机器人系统。

📄 摘要（原文）

We present Whole-Body Mobile Manipulation Interface (HoMMI), a data collection and policy learning framework that learns whole-body mobile manipulation directly from robot-free human demonstrations. We augment UMI interfaces with egocentric sensing to capture the global context required for mobile manipulation, enabling portable, robot-free, and scalable data collection. However, naively incorporating egocentric sensing introduces a larger human-to-robot embodiment gap in both observation and action spaces, making policy transfer difficult. We explicitly bridge this gap with a cross-embodiment hand-eye policy design, including an embodiment agnostic visual representation; a relaxed head action representation; and a whole-body controller that realizes hand-eye trajectories through coordinated whole-body motion under robot-specific physical constraints. Together, these enable long-horizon mobile manipulation tasks requiring bimanual and whole-body coordination, navigation, and active perception. Results are best viewed on: https://hommi-robot.github.io

HoMMI: Learning Whole-Body Mobile Manipulation from Human Demonstrations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理