Learning Humanoid Navigation from Human Data
作者: Weizhuo Wang, Yanjie Ze, C. Karen Liu, Monroe Kennedy
分类: cs.RO, cs.AI, cs.CV, cs.LG
发布日期: 2026-04-01
备注: 8 pages 8 figures
💡 一句话要点
EgoNav:仅用人类数据学习人型机器人导航,实现零样本泛化
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 人型机器人导航 人类数据学习 扩散模型 零样本泛化 视觉融合 轨迹预测 机器人控制
📋 核心要点
- 现有机器人导航方法依赖大量机器人数据或环境特定微调,泛化能力受限,难以适应复杂、未知的环境。
- EgoNav利用人类行走数据学习导航策略,通过扩散模型预测未来轨迹分布,并融合视觉信息,实现零样本泛化。
- 实验表明,EgoNav在避障和多模态覆盖方面优于基线,并在真实机器人上成功实现零样本部署,展现了强大的泛化能力。
📝 摘要(中文)
本文提出EgoNav,一个使人型机器人能够仅从5小时的人类行走数据中学习,从而在各种未见环境中导航的系统,无需机器人数据或微调。该系统使用扩散模型预测未来轨迹的分布,该分布以过去的轨迹、融合颜色、深度和语义信息的360度视觉记忆以及来自冻结的DINOv3骨干网络的视频特征为条件,后者捕捉深度传感器不可见的表观线索。混合采样方案在10个去噪步骤中实现实时推理,并且后退视界控制器从预测的分布中选择路径。通过离线评估验证了EgoNav,它在避障和多模态覆盖方面优于基线,并通过在Unitree G1人型机器人上进行零样本部署,在未见的室内和室外环境中进行了验证。等待开门、绕过人群和避开玻璃墙等行为自然地从学习到的先验中产生。我们将发布数据集和训练好的模型。我们的网站:https://egonav.weizhuowang.com
🔬 方法详解
问题定义:现有机器人导航方法通常需要大量的机器人自身数据进行训练,或者需要针对特定环境进行微调,这限制了它们在未知环境中的泛化能力。此外,仅依赖深度信息可能无法充分感知环境,例如无法识别玻璃墙等。
核心思路:EgoNav的核心思路是利用人类的行走数据来学习导航策略。人类在各种环境中行走的数据包含了丰富的导航信息,可以作为机器人学习的先验知识。通过学习人类的导航行为,机器人可以更好地理解环境,并做出合理的导航决策。此外,融合视觉信息可以弥补深度信息的不足,提高环境感知能力。
技术框架:EgoNav系统主要包含以下几个模块:1) 360度视觉记忆模块,用于融合颜色、深度和语义信息,构建环境的视觉表示;2) 基于DINOv3的视频特征提取模块,用于捕捉深度传感器无法感知的表观线索;3) 基于扩散模型的轨迹预测模块,用于预测未来轨迹的分布,该分布以过去的轨迹、视觉记忆和视频特征为条件;4) 混合采样模块,用于加速推理过程;5) 后退视界控制器,用于从预测的轨迹分布中选择最优路径。
关键创新:EgoNav的关键创新在于:1) 利用人类行走数据进行导航策略学习,避免了对大量机器人数据的依赖;2) 融合视觉信息,提高了环境感知能力;3) 使用扩散模型进行轨迹预测,可以生成多模态的轨迹分布,提高了导航的灵活性和鲁棒性;4) 混合采样方案实现了实时推理。
关键设计:扩散模型使用10个去噪步骤进行推理,以实现实时性能。损失函数的设计旨在鼓励生成多样化的轨迹,同时保证轨迹的安全性。360度视觉记忆模块融合了颜色、深度和语义信息,以提供更丰富的环境表示。DINOv3骨干网络被冻结,以避免在训练过程中过度拟合人类数据。
🖼️ 关键图片
📊 实验亮点
EgoNav在离线评估中,在避障和多模态覆盖方面优于基线方法。在Unitree G1人型机器人上的零样本部署实验中,EgoNav成功地在未见的室内和室外环境中进行了导航,并展现出等待开门、绕过人群和避开玻璃墙等自然行为。这些结果表明,EgoNav具有强大的泛化能力和实用价值。
🎯 应用场景
EgoNav技术可应用于各种人型机器人导航场景,例如家庭服务机器人、巡检机器人、物流机器人等。该技术可以使机器人在未知环境中自主导航,完成各种任务,提高机器人的智能化水平和服务能力。此外,该技术还可以应用于虚拟现实和增强现实等领域,为用户提供更真实的沉浸式体验。
📄 摘要(原文)
We present EgoNav, a system that enables a humanoid robot to traverse diverse, unseen environments by learning entirely from 5 hours of human walking data, with no robot data or finetuning. A diffusion model predicts distributions of plausible future trajectories conditioned on past trajectory, a 360 deg visual memory fusing color, depth, and semantics, and video features from a frozen DINOv3 backbone that capture appearance cues invisible to depth sensors. A hybrid sampling scheme achieves real-time inference in 10 denoising steps, and a receding-horizon controller selects paths from the predicted distribution. We validate EgoNav through offline evaluations, where it outperforms baselines in collision avoidance and multi-modal coverage, and through zero-shot deployment on a Unitree G1 humanoid across unseen indoor and outdoor environments. Behaviors such as waiting for doors to open, navigating around crowds, and avoiding glass walls emerge naturally from the learned prior. We will release the dataset and trained models. Our website: https://egonav.weizhuowang.com