RobotDancing: Residual-Action Reinforcement Learning Enables Robust Long-Horizon Humanoid Motion Tracking

📄 arXiv: 2509.20717v1 📥 PDF

作者: Zhenguo Sun, Yibo Peng, Yuan Meng, Xukun Li, Bo-Sheng Huang, Zhenshan Bing, Xinlong Wang, Alois Knoll

分类: cs.RO, cs.AI

发布日期: 2025-09-25


💡 一句话要点

提出基于残差动作强化学习的RobotDancing框架,实现鲁棒的人形机器人长时程运动跟踪。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 人形机器人 运动跟踪 强化学习 残差动作 零样本迁移

📋 核心要点

  1. 现有方法难以补偿模型与真实环境的差异,导致人形机器人长时程运动跟踪中误差累积。
  2. RobotDancing通过预测残差关节目标,显式纠正动力学差异,实现更鲁棒的运动跟踪。
  3. 实验表明,RobotDancing能有效跟踪高动态运动,并能零样本迁移到真实机器人上。

📝 摘要(中文)

人形机器人上的长时程、高动态运动跟踪仍然脆弱,因为绝对关节指令无法补偿模型与实际环境的不匹配,导致误差累积。我们提出了RobotDancing,一个简单、可扩展的框架,它预测残差关节目标以显式地纠正动力学差异。该流程是端到端的——训练、sim-to-sim验证和零样本sim-to-real——并使用具有统一的观察、奖励和超参数配置的单阶段强化学习(RL)设置。我们主要在Unitree G1上使用重新定位的LAFAN1舞蹈序列进行评估,并在H1/H1-2上验证迁移。RobotDancing可以跟踪多分钟、高能量的行为(跳跃、旋转、车轮动作),并以高运动跟踪质量零样本部署到硬件。

🔬 方法详解

问题定义:论文旨在解决人形机器人在长时程、高动态运动跟踪中,由于模型与真实环境之间的差异导致的误差累积问题。现有方法直接控制关节的绝对位置,无法有效补偿这些差异,导致运动轨迹偏离期望。

核心思路:论文的核心思路是采用残差动作控制。不同于直接预测绝对关节目标,RobotDancing预测一个残差量,用于修正当前的关节状态,从而显式地纠正模型与真实环境之间的动力学差异。这种方法对模型误差具有更强的鲁棒性。

技术框架:RobotDancing采用端到端的单阶段强化学习框架。整个流程包括训练、sim-to-sim验证和零样本sim-to-real部署。系统接收统一的观察信息,并根据统一的奖励函数和超参数配置进行训练。训练后的策略可以直接部署到真实机器人上,无需额外的微调。

关键创新:最重要的技术创新点在于残差动作控制策略。通过预测残差量而非绝对量,系统能够更好地适应模型与真实环境之间的差异,从而实现更鲁棒的运动跟踪。此外,端到端的训练方式简化了流程,并提高了效率。

关键设计:论文采用强化学习算法训练策略网络,该网络以机器人状态和目标运动为输入,输出残差关节目标。奖励函数的设计至关重要,需要综合考虑运动跟踪的准确性、稳定性以及能量消耗。具体的网络结构和超参数设置需要根据具体的机器人平台和运动任务进行调整。

📊 实验亮点

RobotDancing在Unitree G1机器人上进行了实验,成功跟踪了LAFAN1舞蹈序列中的高能量动作,如跳跃、旋转和车轮动作。实验结果表明,该方法能够实现高质量的运动跟踪,并且能够零样本迁移到真实机器人上,无需额外的微调。这表明该方法具有良好的泛化能力和实用价值。

🎯 应用场景

该研究成果可应用于人形机器人的运动控制、舞蹈表演、体育训练等领域。通过提高人形机器人的运动跟踪精度和鲁棒性,可以使其在复杂环境中执行更复杂的任务,例如搜救、医疗辅助等。此外,该方法还可以推广到其他类型的机器人,例如四足机器人、机械臂等。

📄 摘要(原文)

Long-horizon, high-dynamic motion tracking on humanoids remains brittle because absolute joint commands cannot compensate model-plant mismatch, leading to error accumulation. We propose RobotDancing, a simple, scalable framework that predicts residual joint targets to explicitly correct dynamics discrepancies. The pipeline is end-to-end--training, sim-to-sim validation, and zero-shot sim-to-real--and uses a single-stage reinforcement learning (RL) setup with a unified observation, reward, and hyperparameter configuration. We evaluate primarily on Unitree G1 with retargeted LAFAN1 dance sequences and validate transfer on H1/H1-2. RobotDancing can track multi-minute, high-energy behaviors (jumps, spins, cartwheels) and deploys zero-shot to hardware with high motion tracking quality.