Dynamic Adaptive Legged Locomotion Policy via Decoupling Reaction Force Control and Gait Control

📄 arXiv: 2509.13737v1 📥 PDF

作者: Renjie Wang, Shangke Lyu, Donglin Wang

分类: cs.RO

发布日期: 2025-09-17


💡 一句话要点

提出解耦反应力控制与步态控制的动态自适应腿足运动策略,提升泛化性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 腿足机器人 强化学习 自适应控制 解耦控制 步态规划

📋 核心要点

  1. 现有腿足机器人强化学习方法在面对环境变化和Sim2Real问题时泛化性不足,依赖大量领域随机化。
  2. 该论文提出解耦站立腿和摆动腿的控制,实现快速在线自适应,从而提升在未知环境下的鲁棒性。
  3. 实验结果表明,该方法在多种复杂场景下,如水平力扰动、不平坦地形等,均表现出良好的性能。

📝 摘要(中文)

强化学习在腿足运动控制方面取得了显著进展,但常常在分布外(OOD)条件下以及模拟与真实环境存在差异时性能下降。本文提出了一种新兴的解耦框架,通过隔离站立腿控制和摆动腿控制,获得快速的在线自适应能力,并减轻在不熟悉环境中模拟到真实(sim-to-real)的问题,而不是主要依靠领域随机化(DR)来尽可能覆盖真实环境,从而缩小模拟到真实的差距并增强鲁棒性。各种模拟和真实世界的实验证明了其在抵抗水平力扰动、不平坦地形、重型和有偏载荷以及模拟到真实差距方面的有效性。

🔬 方法详解

问题定义:现有基于强化学习的腿足机器人控制方法,为了提升在真实环境中的泛化能力,通常依赖于大量的领域随机化(Domain Randomization, DR)。然而,这种方法并不能完全消除模拟环境与真实环境之间的差异,导致在真实环境中性能下降,尤其是在遇到未知的扰动或地形时。因此,如何提升腿足机器人在未知环境下的自适应能力是一个关键问题。

核心思路:本文的核心思路是将腿足机器人的控制解耦为站立腿控制和摆动腿控制。站立腿控制主要负责平衡和支撑,对环境变化更加敏感,需要快速适应;摆动腿控制主要负责步态规划和落脚点选择,相对稳定。通过解耦控制,可以针对性地设计不同的控制策略,从而提升整体的自适应能力。

技术框架:该方法的技术框架主要包含两个独立的控制模块:站立腿反应力控制模块和摆动腿步态控制模块。站立腿反应力控制模块通过观测当前的状态(如身体姿态、接触力等),实时调整站立腿的力矩输出,以保持平衡。摆动腿步态控制模块则根据期望的运动速度和方向,规划摆动腿的轨迹和落脚点。这两个模块相互协作,共同完成腿足机器人的运动控制。

关键创新:该方法最重要的技术创新点在于将腿足机器人的控制解耦为站立腿反应力控制和摆动腿步态控制,并分别设计不同的控制策略。这种解耦的方式使得控制系统更加模块化,易于调试和优化。与传统的端到端强化学习方法相比,该方法具有更强的可解释性和泛化能力。

关键设计:在站立腿反应力控制模块中,使用了基于阻抗控制的策略,通过调整阻抗参数来适应不同的环境。在摆动腿步态控制模块中,使用了基于中心模式振荡器(Central Pattern Generator, CPG)的策略,生成周期性的步态轨迹。此外,还设计了一个自适应模块,用于根据环境变化动态调整站立腿的阻抗参数和摆动腿的步态参数。

📊 实验亮点

实验结果表明,该方法在多种复杂场景下均表现出良好的性能。例如,在受到水平力扰动时,机器人能够快速恢复平衡;在不平坦地形上,机器人能够稳定行走;在负载变化时,机器人能够自适应调整步态。与传统的基于领域随机化的方法相比,该方法在真实环境中的性能提升显著。

🎯 应用场景

该研究成果可应用于各种腿足机器人,尤其是在复杂地形、灾难救援、物流运输等领域。通过提升机器人的自适应能力,使其能够在未知和动态的环境中稳定可靠地运动,从而完成各种任务。此外,该方法还可以为腿足机器人的控制算法设计提供新的思路。

📄 摘要(原文)

While Reinforcement Learning (RL) has achieved remarkable progress in legged locomotion control, it often suffers from performance degradation in out-of-distribution (OOD) conditions and discrepancies between the simulation and the real environments. Instead of mainly relying on domain randomization (DR) to best cover the real environments and thereby close the sim-to-real gap and enhance robustness, this work proposes an emerging decoupled framework that acquires fast online adaptation ability and mitigates the sim-to-real problems in unfamiliar environments by isolating stance-leg control and swing-leg control. Various simulation and real-world experiments demonstrate its effectiveness against horizontal force disturbances, uneven terrains, heavy and biased payloads, and sim-to-real gap.