RuN: Residual Policy for Natural Humanoid Locomotion

作者: Qingpeng Li, Chengrui Zhu, Yanming Wu, Xin Yuan, Zhen Zhang, Jian Yang, Yong Liu

分类: cs.RO

发布日期: 2025-09-25

💡 一句话要点

提出RuN：一种残差策略，用于实现自然的人形机器人运动控制

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 人形机器人 强化学习 运动控制 残差学习 步态生成

📋 核心要点

现有方法难以让人形机器人实现自然流畅的步态切换，尤其是在行走和跑步之间平滑过渡，因为需要单个策略同时处理多种任务。
RuN的核心思想是将运动控制任务解耦，利用预训练的运动生成器提供运动先验，强化学习策略学习残差校正，从而简化学习过程。
在Unitree G1机器人上的实验表明，RuN在0-2.5m/s的速度范围内实现了稳定自然的步态切换，并在训练效率和性能上优于现有方法。

📝 摘要（中文）

本文提出了一种名为RuN的解耦残差学习框架，旨在使人形机器人能够在广泛的速度范围内实现自然和动态的运动，包括从行走平滑过渡到跑步。现有的深度强化学习方法通常需要策略直接跟踪参考运动，迫使单个策略同时学习运动模仿、速度跟踪和稳定性维持。RuN通过将预训练的条件运动生成器（提供运动学上自然的运动先验）与强化学习策略（学习轻量级的残差校正以处理动力学交互）相结合来分解控制任务。在Unitree G1人形机器人上的仿真和真实实验表明，RuN在广泛的速度范围（0-2.5 m/s）内实现了稳定、自然的步态和平滑的行走-跑步过渡，在训练效率和最终性能方面均优于最先进的方法。

🔬 方法详解

问题定义：现有基于深度强化学习的人形机器人运动控制方法，通常需要策略网络直接模仿参考运动，这使得单个策略需要同时学习运动模仿、速度跟踪和平衡维持等多重任务。这种耦合的方式导致训练困难，难以实现自然流畅的步态切换，尤其是在行走和跑步之间进行平滑过渡时，性能会显著下降。

核心思路：RuN的核心思路是将复杂的运动控制任务解耦为两个部分：一个预训练的条件运动生成器和一个残差强化学习策略。运动生成器负责提供一个运动学上自然的运动先验，而强化学习策略则负责学习一个轻量级的残差校正，以处理动力学交互和环境变化。通过这种解耦，可以显著降低强化学习策略的学习难度，提高训练效率和最终性能。

技术框架：RuN的整体框架包含两个主要模块：条件运动生成器（Conditional Motion Generator）和残差强化学习策略（Residual Reinforcement Learning Policy）。首先，条件运动生成器根据期望的速度等条件生成一个基础运动序列。然后，残差强化学习策略接收当前状态和基础运动序列作为输入，输出一个残差校正量。最终的控制指令是基础运动序列和残差校正量的叠加。

关键创新：RuN的关键创新在于其解耦的残差学习框架。与传统的直接模仿学习方法相比，RuN将运动控制任务分解为运动先验生成和残差校正两个部分，显著降低了强化学习策略的学习难度。此外，RuN采用轻量级的残差校正策略，可以更有效地处理动力学交互和环境变化。

关键设计：条件运动生成器可以使用各种运动生成方法，例如运动捕捉数据驱动的方法或参数化的运动模型。残差强化学习策略通常采用Actor-Critic结构，其中Actor网络输出残差校正量，Critic网络评估当前状态的价值。损失函数包括奖励函数、状态跟踪误差和动作正则化项。奖励函数的设计需要鼓励机器人保持平衡、跟踪期望速度和执行自然运动。

📊 实验亮点

实验结果表明，RuN在Unitree G1人形机器人上实现了稳定、自然的步态和平滑的行走-跑步过渡，速度范围为0-2.5 m/s。与最先进的方法相比，RuN在训练效率和最终性能方面均有显著提升。例如，RuN能够更快地学习到稳定的步态，并且在相同训练时间内，能够实现更高的速度和更自然的运动。

🎯 应用场景

RuN技术可应用于各种人形机器人应用场景，例如搜救、物流、康复训练和娱乐等。通过实现自然流畅的运动控制，RuN可以提高人形机器人在复杂环境中的适应性和操作能力，使其能够更好地服务于人类。未来，该技术有望进一步扩展到其他类型的机器人，例如四足机器人和双臂机器人。

📄 摘要（原文）

Enabling humanoid robots to achieve natural and dynamic locomotion across a wide range of speeds, including smooth transitions from walking to running, presents a significant challenge. Existing deep reinforcement learning methods typically require the policy to directly track a reference motion, forcing a single policy to simultaneously learn motion imitation, velocity tracking, and stability maintenance. To address this, we introduce RuN, a novel decoupled residual learning framework. RuN decomposes the control task by pairing a pre-trained Conditional Motion Generator, which provides a kinematically natural motion prior, with a reinforcement learning policy that learns a lightweight residual correction to handle dynamical interactions. Experiments in simulation and reality on the Unitree G1 humanoid robot demonstrate that RuN achieves stable, natural gaits and smooth walk-run transitions across a broad velocity range (0-2.5 m/s), outperforming state-of-the-art methods in both training efficiency and final performance.

RuN: Residual Policy for Natural Humanoid Locomotion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册