Learning Impact-Rich Rotational Maneuvers via Centroidal Velocity Rewards and Sim-to-Real Techniques: A One-Leg Hopper Flip Case Study

📄 arXiv: 2505.12222v3 📥 PDF

作者: Dongyun Kang, Gijeong Kim, JongHun Choe, Hajun Kim, Hae-Won Park

分类: cs.RO

发布日期: 2025-05-18 (更新: 2025-08-26)


💡 一句话要点

提出基于质心速度奖励的框架以解决动态旋转行为学习问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 动态旋转 强化学习 仿真到现实 质心速度 机器人控制 运动学习 机械鲁棒性

📋 核心要点

  1. 现有方法在学习动态旋转动作时面临挑战,传统奖励机制无法有效引导全身旋转。
  2. 提出基于质心速度的奖励机制,并结合执行器感知的仿真到现实技术,以提高学习效果。
  3. 通过单腿跳跃器前翻的实验,首次实现了完整的前翻,验证了新方法的有效性和可靠性。

📝 摘要(中文)

动态旋转动作(如前翻)涉及大量角动量生成和强烈的冲击力,给强化学习和仿真到现实的转移带来了重大挑战。本文提出了一种通用框架,通过基于质心速度的奖励和考虑执行器的仿真到现实技术,学习和部署影响丰富的旋转行为。我们发现传统的链级奖励公式无法引导真实的全身旋转,因此引入了质心角速度奖励,以准确捕捉系统的整体旋转动态。通过对单腿跳跃器前翻的案例研究,我们首次成功实现了完整的前翻硬件。结果表明,结合质心动态和执行器约束对于可靠执行高度动态的动作至关重要。

🔬 方法详解

问题定义:本文旨在解决动态旋转动作学习中的冲击力和角动量生成问题。现有方法在奖励设计上存在不足,无法有效引导全身旋转,导致学习效果不佳。

核心思路:提出基于质心角速度的奖励机制,旨在更准确地捕捉系统的整体旋转动态。同时,结合执行器感知的仿真到现实技术,以确保在极端条件下的有效转移。

技术框架:整体框架包括两个主要模块:质心速度奖励计算和执行器感知的仿真到现实技术。前者用于引导学习过程,后者则通过建模电机工作区域和施加传动负载正则化来确保现实中的扭矩指令和机械鲁棒性。

关键创新:引入质心角速度奖励机制是本文的核心创新,与传统链级奖励机制相比,能够更好地反映整体旋转动态,从而提高学习效果。

关键设计:在参数设置上,模型考虑了电机的工作区域,并通过正则化技术确保扭矩指令的现实性。此外,损失函数设计上也考虑了执行器的约束,以增强模型的鲁棒性。

📊 实验亮点

实验结果表明,采用新方法的单腿跳跃器成功实现了完整的前翻,验证了质心动态和执行器约束在高度动态动作中的重要性。与传统方法相比,学习效率和执行稳定性显著提升,具体性能数据未知。

🎯 应用场景

该研究的潜在应用领域包括机器人运动控制、动态运动模拟以及增强现实中的物理交互等。通过提高动态旋转动作的学习和执行能力,能够为机器人在复杂环境中的自主运动提供更强的支持,具有重要的实际价值和未来影响。

📄 摘要(原文)

Dynamic rotational maneuvers, such as front flips, inherently involve large angular momentum generation and intense impact forces, presenting major challenges for reinforcement learning and sim-to-real transfer. In this work, we propose a general framework for learning and deploying impact-rich, rotation-intensive behaviors through centroidal velocity-based rewards and actuator-aware sim-to-real techniques. We identify that conventional link-level reward formulations fail to induce true whole-body rotation and introduce a centroidal angular velocity reward that accurately captures system-wide rotational dynamics. To bridge the sim-to-real gap under extreme conditions, we model motor operating regions (MOR) and apply transmission load regularization to ensure realistic torque commands and mechanical robustness. Using the one-leg hopper front flip as a representative case study, we demonstrate the first successful hardware realization of a full front flip. Our results highlight that incorporating centroidal dynamics and actuator constraints is critical for reliably executing highly dynamic motions. A supplementary video is available at: https://youtu.be/atMAVI4s1RY