ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation
作者: Xialin He, Sirui Xu, Xinyao Li, Runpei Dong, Liuyu Bian, Yu-Xiong Wang, Liang-Yan Gui
分类: cs.RO, cs.CV
发布日期: 2026-03-03
备注: Project Page: https://ultra-humanoid.github.io/
💡 一句话要点
提出ULTRA框架,实现基于多模态感知的自主人形机器人全身运动控制。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人形机器人 全身运动控制 多模态控制 神经重定向 强化学习
📋 核心要点
- 现有方法难以让人形机器人从感知和高级任务规范生成全身运动,限制了其在实际场景中的应用。
- ULTRA框架通过物理驱动的神经重定向和统一多模态控制器,实现了从稀疏意图到全身运动的自主控制。
- 实验表明,ULTRA在模拟和真实机器人上均优于传统方法,实现了基于视觉感知的目标导向运动控制。
📝 摘要(中文)
本文提出ULTRA,一个用于自主人形机器人全身运动控制的统一框架。现有方法受限于重定向数据稀缺或质量低、难以扩展到大型技能库,以及依赖于跟踪预定义运动参考而非从感知和高级任务规范生成行为。ULTRA包含两个关键组件:首先,引入一种物理驱动的神经重定向算法,将大规模动作捕捉转换为人形机器人,同时保持接触交互的物理合理性。其次,学习一个统一的多模态控制器,支持密集参考和稀疏任务规范,感知范围从精确的动作捕捉状态到嘈杂的自我中心视觉输入。该控制器提炼出一个通用跟踪策略,将运动技能压缩到一个紧凑的潜在空间,并应用强化学习微调来扩展覆盖范围并提高在分布外场景下的鲁棒性。这使得无需测试时参考运动即可从稀疏意图实现协调的全身行为。在模拟和真实的Unitree G1人形机器人上评估了ULTRA。结果表明,ULTRA可以推广到基于自我中心感知的自主、目标导向的全身运动控制,并且始终优于技能有限的仅跟踪基线。
🔬 方法详解
问题定义:现有的人形机器人全身运动控制方法主要依赖于动作捕捉数据的重定向和预定义的运动参考。这些方法存在数据获取困难、技能扩展性差以及无法直接从感知信息生成行为等问题,限制了人形机器人在复杂环境中的自主性和通用性。
核心思路:ULTRA的核心思路是将运动捕捉数据重定向与多模态控制相结合,通过物理驱动的神经重定向算法生成高质量的训练数据,并利用统一的多模态控制器学习从感知到动作的映射。该控制器能够处理密集参考和稀疏任务规范,从而实现从稀疏意图到全身运动的自主控制。
技术框架:ULTRA框架包含两个主要模块:1) 物理驱动的神经重定向模块,用于将大规模动作捕捉数据转换为人形机器人可执行的运动轨迹;2) 统一的多模态控制器,用于学习从感知输入(如视觉信息和状态估计)到机器人关节控制指令的映射。该控制器通过蒸馏学习、潜在空间压缩和强化学习微调等技术,提高控制器的泛化能力和鲁棒性。整体流程是从动作捕捉数据生成训练数据,然后训练多模态控制器,最后在真实机器人上进行部署和测试。
关键创新:ULTRA的关键创新在于其统一的多模态控制框架,该框架能够同时处理密集参考和稀疏任务规范,并能够从多种感知输入(包括视觉信息)生成全身运动。此外,物理驱动的神经重定向算法能够生成高质量的训练数据,从而提高控制器的性能。与现有方法相比,ULTRA无需预定义的运动参考,能够直接从感知信息生成行为,从而提高了人形机器人的自主性和通用性。
关键设计:物理驱动的神经重定向算法利用物理引擎模拟机器人与环境的交互,并优化重定向后的运动轨迹,以保证其物理合理性。多模态控制器采用Encoder-Decoder结构,Encoder将感知输入编码为潜在向量,Decoder将潜在向量解码为机器人关节控制指令。损失函数包括跟踪损失、平滑损失和强化学习奖励函数,用于优化控制器的性能。强化学习微调采用PPO算法,用于提高控制器的鲁棒性和泛化能力。
🖼️ 关键图片
📊 实验亮点
ULTRA在模拟和真实的Unitree G1人形机器人上进行了评估。实验结果表明,ULTRA能够实现基于自我中心感知的自主、目标导向的全身运动控制,并且始终优于技能有限的仅跟踪基线。具体而言,ULTRA在各项任务上的成功率和运动质量均显著高于对比方法,证明了其有效性和优越性。
🎯 应用场景
ULTRA框架具有广泛的应用前景,可应用于人形机器人在复杂环境中的自主导航、物体操作、人机协作等任务。例如,在家庭服务场景中,人形机器人可以利用ULTRA框架,根据用户的语音指令和视觉感知,自主完成家务劳动。在工业生产场景中,人形机器人可以利用ULTRA框架,进行精细的装配和维护工作。此外,ULTRA框架还可以应用于虚拟现实和游戏领域,用于生成逼真的人形角色动画。
📄 摘要(原文)
Achieving autonomous and versatile whole-body loco-manipulation remains a central barrier to making humanoids practically useful. Yet existing approaches are fundamentally constrained: retargeted data are often scarce or low-quality; methods struggle to scale to large skill repertoires; and, most importantly, they rely on tracking predefined motion references rather than generating behavior from perception and high-level task specifications. To address these limitations, we propose ULTRA, a unified framework with two key components. First, we introduce a physics-driven neural retargeting algorithm that translates large-scale motion capture to humanoid embodiments while preserving physical plausibility for contact-rich interactions. Second, we learn a unified multimodal controller that supports both dense references and sparse task specifications, under sensing ranging from accurate motion-capture state to noisy egocentric visual inputs. We distill a universal tracking policy into this controller, compress motor skills into a compact latent space, and apply reinforcement learning finetuning to expand coverage and improve robustness under out-of-distribution scenarios. This enables coordinated whole-body behavior from sparse intent without test-time reference motions. We evaluate ULTRA in simulation and on a real Unitree G1 humanoid. Results show that ULTRA generalizes to autonomous, goal-conditioned whole-body loco-manipulation from egocentric perception, consistently outperforming tracking-only baselines with limited skills.