RuN: Residual Policy for Natural Humanoid Locomotion
作者: Qingpeng Li, Chengrui Zhu, Yanming Wu, Xin Yuan, Zhen Zhang, Jian Yang, Yong Liu
分类: cs.RO
发布日期: 2025-09-25
💡 一句话要点
提出RuN:一种残差策略,用于实现自然的人形机器人运动控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人形机器人 强化学习 运动控制 残差学习 步态生成
📋 核心要点
- 现有方法难以让人形机器人实现自然流畅的步态切换,尤其是在行走和跑步之间平滑过渡,因为需要单个策略同时处理多种任务。
- RuN的核心思想是将运动控制任务解耦,利用预训练的运动生成器提供运动先验,强化学习策略学习残差校正,从而简化学习过程。
- 在Unitree G1机器人上的实验表明,RuN在0-2.5m/s的速度范围内实现了稳定自然的步态切换,并在训练效率和性能上优于现有方法。
📝 摘要(中文)
本文提出了一种名为RuN的解耦残差学习框架,旨在使人形机器人能够在广泛的速度范围内实现自然和动态的运动,包括从行走平滑过渡到跑步。现有的深度强化学习方法通常需要策略直接跟踪参考运动,迫使单个策略同时学习运动模仿、速度跟踪和稳定性维持。RuN通过将预训练的条件运动生成器(提供运动学上自然的运动先验)与强化学习策略(学习轻量级的残差校正以处理动力学交互)相结合来分解控制任务。在Unitree G1人形机器人上的仿真和真实实验表明,RuN在广泛的速度范围(0-2.5 m/s)内实现了稳定、自然的步态和平滑的行走-跑步过渡,在训练效率和最终性能方面均优于最先进的方法。
🔬 方法详解
问题定义:现有基于深度强化学习的人形机器人运动控制方法,通常需要策略网络直接模仿参考运动,这使得单个策略需要同时学习运动模仿、速度跟踪和平衡维持等多重任务。这种耦合的方式导致训练困难,难以实现自然流畅的步态切换,尤其是在行走和跑步之间进行平滑过渡时,性能会显著下降。
核心思路:RuN的核心思路是将复杂的运动控制任务解耦为两个部分:一个预训练的条件运动生成器和一个残差强化学习策略。运动生成器负责提供一个运动学上自然的运动先验,而强化学习策略则负责学习一个轻量级的残差校正,以处理动力学交互和环境变化。通过这种解耦,可以显著降低强化学习策略的学习难度,提高训练效率和最终性能。
技术框架:RuN的整体框架包含两个主要模块:条件运动生成器(Conditional Motion Generator)和残差强化学习策略(Residual Reinforcement Learning Policy)。首先,条件运动生成器根据期望的速度等条件生成一个基础运动序列。然后,残差强化学习策略接收当前状态和基础运动序列作为输入,输出一个残差校正量。最终的控制指令是基础运动序列和残差校正量的叠加。
关键创新:RuN的关键创新在于其解耦的残差学习框架。与传统的直接模仿学习方法相比,RuN将运动控制任务分解为运动先验生成和残差校正两个部分,显著降低了强化学习策略的学习难度。此外,RuN采用轻量级的残差校正策略,可以更有效地处理动力学交互和环境变化。
关键设计:条件运动生成器可以使用各种运动生成方法,例如运动捕捉数据驱动的方法或参数化的运动模型。残差强化学习策略通常采用Actor-Critic结构,其中Actor网络输出残差校正量,Critic网络评估当前状态的价值。损失函数包括奖励函数、状态跟踪误差和动作正则化项。奖励函数的设计需要鼓励机器人保持平衡、跟踪期望速度和执行自然运动。
📊 实验亮点
实验结果表明,RuN在Unitree G1人形机器人上实现了稳定、自然的步态和平滑的行走-跑步过渡,速度范围为0-2.5 m/s。与最先进的方法相比,RuN在训练效率和最终性能方面均有显著提升。例如,RuN能够更快地学习到稳定的步态,并且在相同训练时间内,能够实现更高的速度和更自然的运动。
🎯 应用场景
RuN技术可应用于各种人形机器人应用场景,例如搜救、物流、康复训练和娱乐等。通过实现自然流畅的运动控制,RuN可以提高人形机器人在复杂环境中的适应性和操作能力,使其能够更好地服务于人类。未来,该技术有望进一步扩展到其他类型的机器人,例如四足机器人和双臂机器人。
📄 摘要(原文)
Enabling humanoid robots to achieve natural and dynamic locomotion across a wide range of speeds, including smooth transitions from walking to running, presents a significant challenge. Existing deep reinforcement learning methods typically require the policy to directly track a reference motion, forcing a single policy to simultaneously learn motion imitation, velocity tracking, and stability maintenance. To address this, we introduce RuN, a novel decoupled residual learning framework. RuN decomposes the control task by pairing a pre-trained Conditional Motion Generator, which provides a kinematically natural motion prior, with a reinforcement learning policy that learns a lightweight residual correction to handle dynamical interactions. Experiments in simulation and reality on the Unitree G1 humanoid robot demonstrate that RuN achieves stable, natural gaits and smooth walk-run transitions across a broad velocity range (0-2.5 m/s), outperforming state-of-the-art methods in both training efficiency and final performance.