Efficient Learning-Based Control of a Legged Robot in Lunar Gravity

📄 arXiv: 2509.10128v2 📥 PDF

作者: Philip Arm, Oliver Fischer, Joseph Church, Adrian Fuhrer, Hendrik Kolvenbach, Marco Hutter

分类: cs.RO, cs.AI

发布日期: 2025-09-12 (更新: 2025-11-14)


💡 一句话要点

提出基于强化学习的腿式机器人重力自适应控制方法,优化月球等低重力环境下的能耗。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 腿式机器人 强化学习 重力自适应 功率优化 运动控制

📋 核心要点

  1. 行星探测机器人受限于功率和热预算,需要能在不同重力环境下高效工作的控制方法。
  2. 论文提出基于强化学习的控制方法,通过重力缩放的功率优化奖励函数,实现重力环境自适应。
  3. 实验表明,该方法在不同重力环境下均有效,且在地球重力下运动功耗降低23%,月球重力下降低36%。

📝 摘要(中文)

腿式机器人由于其在非结构化地形上的出色移动能力,是探索月球、火星或小行星等低重力天体上具有挑战性区域的有希望的候选者。然而,由于行星机器人的功率和热预算受到高度限制,这些机器人需要能够轻松转移到多种重力环境中的节能控制方法。本文介绍了一种基于强化学习的腿式机器人控制方法,该方法具有重力缩放的功率优化奖励函数。我们使用该方法开发并验证了在从月球重力(1.62 m/s2)到假想的超级地球(19.62 m/s2)的重力环境中腿式机器人的运动控制器和基座姿态控制器。我们的方法成功地通过重力缩放的奖励函数在这些重力水平上缩放了运动和基座姿态控制。在地球重力下,功率优化的运动控制器在15.65公斤的机器人上以0.4米/秒的速度达到了23.4瓦的运动功耗,比基线策略提高了23%。此外,我们设计了一个恒力弹簧卸载系统,使我们能够在月球重力下进行腿式运动的真实实验。在月球重力下,功率优化控制策略达到12.2瓦,比未针对功率效率优化的基线控制器低36%。我们的方法为开发腿式机器人在多种重力水平下的节能运动控制器提供了一种可扩展的方法。

🔬 方法详解

问题定义:现有腿式机器人在低重力环境下的控制方法通常能耗较高,难以满足行星探测任务对功率的严格限制。现有的控制策略难以直接迁移到不同的重力环境中,需要针对特定重力环境进行重新设计和优化,这大大增加了开发成本和时间。

核心思路:论文的核心思路是利用强化学习,通过设计与重力相关的奖励函数,训练出能够自适应不同重力环境的控制策略。通过功率优化奖励函数,直接在训练过程中引导机器人学习节能的运动方式。

技术框架:该方法主要包含以下几个阶段:1) 定义状态空间、动作空间和奖励函数;2) 使用强化学习算法(例如PPO)训练控制策略;3) 在不同重力环境下验证控制策略的性能。奖励函数的设计是关键,它需要包含运动速度、姿态稳定性和功率消耗等多个目标,并根据重力进行缩放。

关键创新:该方法最重要的创新点在于提出了重力缩放的奖励函数。通过将奖励函数与重力相关联,使得训练出的控制策略能够自动适应不同的重力环境,而无需针对每个环境进行单独训练。这种方法大大提高了控制策略的泛化能力和开发效率。

关键设计:奖励函数的设计至关重要,它通常包含以下几个部分:1) 运动速度奖励,鼓励机器人以期望的速度运动;2) 姿态稳定奖励,保持机器人身体的平衡;3) 功率消耗惩罚,降低机器人的能量消耗。这些奖励项的权重需要根据具体任务和重力环境进行调整。此外,论文还设计了一个恒力弹簧卸载系统,用于模拟月球重力环境,以便进行真实的实验验证。

📊 实验亮点

在地球重力下,功率优化的运动控制器在15.65公斤的机器人上以0.4米/秒的速度达到了23.4瓦的运动功耗,比基线策略提高了23%。在月球重力下,功率优化控制策略达到12.2瓦,比未针对功率效率优化的基线控制器低36%。这些实验结果表明,该方法能够显著降低腿式机器人在不同重力环境下的能量消耗。

🎯 应用场景

该研究成果可应用于月球、火星等低重力天体的探测任务中,为腿式机器人提供高效、节能的运动控制策略。该方法还可推广到其他需要适应不同环境参数的机器人控制问题,例如水下机器人、飞行机器人等。此外,该研究对于开发更智能、更自主的机器人系统具有重要意义。

📄 摘要(原文)

Legged robots are promising candidates for exploring challenging areas on low-gravity bodies such as the Moon, Mars, or asteroids, thanks to their advanced mobility on unstructured terrain. However, as planetary robots' power and thermal budgets are highly restricted, these robots need energy-efficient control approaches that easily transfer to multiple gravity environments. In this work, we introduce a reinforcement learning-based control approach for legged robots with gravity-scaled power-optimized reward functions. We use our approach to develop and validate a locomotion controller and a base pose controller in gravity environments from lunar gravity (1.62 m/s2) to a hypothetical super-Earth (19.62 m/s2). Our approach successfully scales across these gravity levels for locomotion and base pose control with the gravity-scaled reward functions. The power-optimized locomotion controller reached a power consumption for locomotion of 23.4 W in Earth gravity on a 15.65 kg robot at 0.4 m/s, a 23 % improvement over the baseline policy. Additionally, we designed a constant-force spring offload system that allowed us to conduct real-world experiments on legged locomotion in lunar gravity. In lunar gravity, the power-optimized control policy reached 12.2 W, 36 % less than a baseline controller which is not optimized for power efficiency. Our method provides a scalable approach to developing power-efficient locomotion controllers for legged robots across multiple gravity levels.