Actuator-Constrained Reinforcement Learning for High-Speed Quadrupedal Locomotion

📄 arXiv: 2312.17507v1 📥 PDF

作者: Young-Ha Shin, Tae-Gyu Song, Gwanghyeon Ji, Hae-Won Park

分类: cs.RO

发布日期: 2023-12-29


💡 一句话要点

提出一种考虑执行器约束的强化学习方法,实现四足机器人高速奔跑

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 强化学习 执行器约束 高速运动 运动控制

📋 核心要点

  1. 现有四足机器人运动控制方法难以兼顾电机性能约束,导致实际运动中电机易饱和,影响性能。
  2. 该方法将电机转矩-速度工作区域作为约束加入强化学习训练,避免策略探索到不可行的状态空间。
  3. 实验表明,该方法使KAIST Hound四足机器人达到6.5米/秒的奔跑速度,为同类机器人中最快。

📝 摘要(中文)

本文提出了一种通过在强化学习中考虑执行器转矩-速度工作区域来实现四足机器人高速奔跑的方法。将执行器的物理特性和约束纳入训练过程,以减少由于电机转矩-速度限制而在现实世界中不可行的状态转换。步态奖励旨在将电机转矩均匀地分配到所有腿上,从而有助于更平衡的功率使用,并减轻由于单电机饱和而导致的性能瓶颈。此外,我们设计了一种轻量级足部,以增强机器人的敏捷性。我们观察到,应用电机工作区域作为约束有助于策略网络在采样过程中避免不可行区域。通过训练后的策略,KAIST Hound,一个45公斤的四足机器人,可以达到6.5米/秒的奔跑速度,这是基于电机驱动的四足机器人中最快的速度。

🔬 方法详解

问题定义:现有四足机器人高速运动控制方法通常忽略了电机本身的物理限制,例如转矩-速度曲线。这导致训练得到的控制策略在实际部署时,电机频繁工作在饱和区域,无法提供足够的动力,从而限制了机器人的运动速度和稳定性。因此,需要一种能够显式考虑电机性能约束的控制方法,以提高四足机器人的运动性能。

核心思路:本文的核心思路是将电机的转矩-速度工作区域作为约束条件,融入到强化学习的训练过程中。通过在训练过程中惩罚违反电机约束的状态转移,引导策略网络学习出在电机可行工作范围内的高效运动策略。同时,设计步态奖励函数,鼓励电机转矩在各条腿上均匀分配,避免单电机过载。

技术框架:该方法采用强化学习框架,具体流程如下:1) 定义机器人和环境的状态空间、动作空间和奖励函数;2) 将电机的转矩-速度工作区域建模为约束条件;3) 使用强化学习算法(具体算法未知)训练策略网络,使其能够根据当前状态输出满足电机约束的动作;4) 在训练过程中,如果机器人违反了电机约束,则给予负奖励;5) 训练完成后,将策略网络部署到实际机器人上进行测试。

关键创新:该方法最重要的创新点在于将执行器的物理约束(转矩-速度曲线)显式地融入到强化学习的训练过程中。这与传统的强化学习方法不同,后者通常只关注任务本身的奖励,而忽略了执行器的限制。通过考虑执行器约束,该方法能够学习出更加实用和高效的控制策略。

关键设计:关键设计包括:1) 精确建模电机的转矩-速度工作区域,并将其转化为强化学习中的约束条件;2) 设计合适的奖励函数,既要鼓励机器人高速运动,又要保证电机转矩的均匀分配;3) 优化强化学习算法的参数,以提高训练效率和策略的鲁棒性。此外,轻量化足部设计也有助于提升机器人的敏捷性(具体设计细节未知)。

📊 实验亮点

实验结果表明,使用该方法训练的KAIST Hound四足机器人能够达到6.5米/秒的奔跑速度,这是目前基于电机驱动的四足机器人中最快的速度。这一结果验证了该方法在提高四足机器人运动性能方面的有效性。此外,该方法还能够提高机器人的稳定性和鲁棒性(具体数据未知)。

🎯 应用场景

该研究成果可应用于搜救、侦察、物流等领域,尤其是在复杂地形或需要快速移动的场景下。通过考虑执行器约束,可以提高四足机器人的运动性能和可靠性,使其能够更好地适应各种实际应用需求。未来,该方法还可以推广到其他类型的机器人,例如人形机器人和轮式机器人。

📄 摘要(原文)

This paper presents a method for achieving high-speed running of a quadruped robot by considering the actuator torque-speed operating region in reinforcement learning. The physical properties and constraints of the actuator are included in the training process to reduce state transitions that are infeasible in the real world due to motor torque-speed limitations. The gait reward is designed to distribute motor torque evenly across all legs, contributing to more balanced power usage and mitigating performance bottlenecks due to single-motor saturation. Additionally, we designed a lightweight foot to enhance the robot's agility. We observed that applying the motor operating region as a constraint helps the policy network avoid infeasible areas during sampling. With the trained policy, KAIST Hound, a 45 kg quadruped robot, can run up to 6.5 m/s, which is the fastest speed among electric motor-based quadruped robots.