Real-Time Gait Adaptation for Quadrupeds using Model Predictive Control and Reinforcement Learning

📄 arXiv: 2510.20706v2 📥 PDF

作者: Prakrut Kotecha, Ganga Nair B, Shishir Kolathaya

分类: cs.RO, cs.AI

发布日期: 2025-10-23 (更新: 2025-10-24)

备注: 7 pages


💡 一句话要点

结合MPC与强化学习,实现四足机器人实时步态自适应

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 步态自适应 模型预测控制 强化学习 Dreamer 运动规划 能量效率

📋 核心要点

  1. 传统强化学习虽能实现四足机器人自适应运动,但策略常收敛于单一步态,导致性能欠佳。
  2. 本文结合模型预测控制(MPC)和强化学习,利用MPPI算法和Dreamer模块,在连续步态空间中实现实时步态自适应。
  3. 实验表明,该框架在不同速度下能显著降低能耗(最高36.48%),同时保持精确跟踪和自适应步态。

📝 摘要(中文)

本文提出了一种优化框架,用于四足机器人实时步态自适应,该框架在连续步态空间中运行,结合了模型预测路径积分(MPPI)算法与Dreamer模块,从而生成自适应和最优的运动策略。在每个时间步,MPPI使用学习到的Dreamer奖励函数联合优化动作和步态变量,该奖励函数旨在促进速度跟踪、能量效率、稳定性以及平滑过渡,同时惩罚突兀的步态变化。学习到的价值函数被用作终端奖励,从而将公式扩展到无限范围规划。在Unitree Go1的仿真环境中评估了该框架,结果表明,在不同的目标速度下,能量消耗平均降低了高达36.48%,同时保持了精确的跟踪和自适应的、适合任务的步态。

🔬 方法详解

问题定义:现有四足机器人运动控制方法,要么依赖于模型预测控制(MPC),缺乏对环境变化的适应性;要么依赖于无模型的强化学习(RL),容易收敛到单一的、次优的步态。因此,需要一种能够兼顾环境适应性和步态多样性的控制方法,以实现更高效、更稳定的运动控制。

核心思路:本文的核心思路是将MPC的优化能力与强化学习的环境适应能力相结合。具体来说,利用MPPI算法在连续步态空间中进行优化,同时使用Dreamer模块学习奖励函数,该奖励函数能够引导机器人选择能量效率高、稳定性好、过渡平滑的步态。通过这种方式,机器人可以在不同的环境和任务下自适应地调整步态,从而实现最优的运动性能。

技术框架:该框架包含以下几个主要模块:1) MPPI控制器:负责在每个时间步优化机器人的动作和步态变量。2) Dreamer模块:负责学习奖励函数,该奖励函数能够反映运动的质量,包括速度跟踪、能量效率、稳定性等。3) 价值函数:用于估计未来回报,并作为终端奖励,从而扩展规划范围到无限horizon。整体流程是,MPPI控制器根据当前状态和Dreamer模块提供的奖励函数,生成一系列候选动作和步态,然后选择最优的动作和步态执行。

关键创新:本文最重要的技术创新点在于将MPPI算法与Dreamer模块相结合,从而实现了在连续步态空间中的实时步态自适应。与传统的MPC方法相比,该方法能够更好地适应环境变化;与传统的强化学习方法相比,该方法能够更快地收敛到最优策略,并避免陷入局部最优解。

关键设计:Dreamer模块使用世界模型学习环境动态和奖励函数。奖励函数的设计至关重要,它需要综合考虑速度跟踪误差、能量消耗、稳定性以及步态切换的平滑性。价值函数通过学习得到,用于估计长期回报,并作为MPPI的终端奖励。MPPI算法中的温度参数控制了探索的程度,需要根据具体任务进行调整。

📊 实验亮点

实验结果表明,该框架在Unitree Go1仿真环境中,能够显著降低能量消耗,平均降低高达36.48%,同时保持精确的速度跟踪和自适应的步态。该方法在不同目标速度下均表现出良好的性能,验证了其在实际应用中的潜力。与传统的MPC方法相比,该方法能够更好地适应环境变化,并实现更优的运动性能。

🎯 应用场景

该研究成果可应用于各种四足机器人应用场景,例如搜救、巡检、物流等。通过自适应步态调整,机器人可以在复杂地形和不同任务需求下实现更高效、更稳定的运动,从而提高工作效率和安全性。此外,该方法还可以推广到其他类型的机器人,例如双足机器人和轮式机器人。

📄 摘要(原文)

Model-free reinforcement learning (RL) has enabled adaptable and agile quadruped locomotion; however, policies often converge to a single gait, leading to suboptimal performance. Traditionally, Model Predictive Control (MPC) has been extensively used to obtain task-specific optimal policies but lacks the ability to adapt to varying environments. To address these limitations, we propose an optimization framework for real-time gait adaptation in a continuous gait space, combining the Model Predictive Path Integral (MPPI) algorithm with a Dreamer module to produce adaptive and optimal policies for quadruped locomotion. At each time step, MPPI jointly optimizes the actions and gait variables using a learned Dreamer reward that promotes velocity tracking, energy efficiency, stability, and smooth transitions, while penalizing abrupt gait changes. A learned value function is incorporated as terminal reward, extending the formulation to an infinite-horizon planner. We evaluate our framework in simulation on the Unitree Go1, demonstrating an average reduction of up to 36.48 % in energy consumption across varying target speeds, while maintaining accurate tracking and adaptive, task-appropriate gaits.