Towards bridging the gap: Systematic sim-to-real transfer for diverse legged robots
作者: Filip Bjelonic, Fabian Tischhauser, Marco Hutter
分类: cs.RO
发布日期: 2025-09-08
备注: Submitted to The International Journal of Robotics Research (IJRR), 25 Figures, 7 Tables, Open Source Data available at ETH Research Collection. Open Source software available soon
💡 一句话要点
提出一种系统性的Sim-to-Real迁移框架,用于提升多样化足式机器人的能量效率。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 足式机器人 Sim-to-Real 强化学习 能量效率 永磁同步电机 机器人控制 策略迁移
📋 核心要点
- 现有足式机器人控制器在仿真环境表现良好,但难以迁移到真实环境,且忽略了执行器能量损耗。
- 提出结合Sim-to-Real强化学习与基于物理的电机能量模型框架,最小化参数调整,平衡电气和机械损耗。
- 实验验证框架在多种机器人上的有效性,无需动态参数随机化,显著提升能量效率,ANYmal运输总成本降低32%。
📝 摘要(中文)
为了使足式机器人在真实环境中具有实用性,必须实现稳健的运动和能量效率。然而,在仿真中训练的控制器通常无法可靠地迁移到真实环境,并且大多数现有方法忽略了特定于执行器的能量损失或依赖于复杂的手动调整的奖励函数。本文提出了一种框架,该框架将sim-to-real强化学习与永磁同步电机的基于物理的能量模型相结合。该框架需要一个最小的参数集来捕获仿真到现实的差距,并采用紧凑的四项奖励,其中包含基于第一性原理的能量损失公式,以平衡电气和机械损耗。通过自下而上的动态参数识别研究,包括执行器、全机器人空中轨迹和地面运动,对该方法进行了评估和验证。该框架在三个主要平台上进行了测试,并在十个额外的机器人上进行了部署,证明了无需动态参数随机化的可靠策略迁移。该方法提高了能量效率,与最先进的方法相比,ANYmal的运输总成本降低了32%(值为1.27)。所有代码、模型和数据集都将发布。
🔬 方法详解
问题定义:足式机器人需要在真实环境中实现鲁棒的运动和能量效率,但现有方法存在以下痛点:一是仿真环境训练的控制器难以迁移到真实环境;二是大多忽略了执行器能量损耗;三是依赖复杂的手动调整的奖励函数,泛化性差。
核心思路:本文的核心思路是将Sim-to-Real强化学习与基于物理的电机能量模型相结合,通过最小化需要调整的参数数量,并设计一个紧凑的奖励函数,从而实现策略在真实机器人上的可靠迁移和能量效率的提升。该方法旨在弥合仿真环境与真实环境之间的差距,并优化机器人的能量消耗。
技术框架:该框架包含以下主要模块:1) 仿真环境:用于训练强化学习策略,并模拟机器人的运动和能量消耗。2) 能量模型:基于物理原理对永磁同步电机的能量损耗进行建模,考虑了电气和机械损耗。3) Sim-to-Real迁移:通过最小化参数集来捕获仿真到现实的差距,从而实现策略的迁移。4) 奖励函数:设计了一个紧凑的四项奖励函数,包含基于第一性原理的能量损失公式,以平衡电气和机械损耗。
关键创新:该论文的关键创新在于:1) 提出了一种将Sim-to-Real强化学习与基于物理的电机能量模型相结合的框架,从而更准确地模拟了真实环境中的能量损耗。2) 设计了一个紧凑的奖励函数,该函数能够平衡电气和机械损耗,从而优化机器人的能量效率。3) 通过最小化参数集,实现了策略在多种机器人上的可靠迁移,无需动态参数随机化。
关键设计:该框架的关键设计包括:1) 能量模型的参数化:使用最小的参数集来描述电机的能量损耗,从而降低了模型的复杂性。2) 奖励函数的设计:奖励函数包含四个项,分别对应于运动目标、稳定性、能量消耗和执行器限制。能量消耗项基于第一性原理的能量损失公式,能够准确地反映电气和机械损耗。3) 强化学习算法的选择:使用了合适的强化学习算法(具体算法未知)来训练策略,并优化奖励函数。
📊 实验亮点
实验结果表明,该方法在三个主要平台和十个额外的机器人上实现了可靠的策略迁移,无需动态参数随机化。与最先进的方法相比,该方法显著提高了能量效率,ANYmal的运输总成本降低了32%(值为1.27)。这些结果表明,该方法具有很强的实用性和泛化能力。
🎯 应用场景
该研究成果可广泛应用于各种足式机器人,例如搜索救援机器人、物流机器人、巡检机器人等。通过提高机器人的能量效率,可以延长其工作时间,降低运营成本,并使其能够在更复杂的环境中执行任务。此外,该方法还可以应用于其他类型的机器人,例如无人机和水下机器人,以提高其能量效率和自主性。
📄 摘要(原文)
Legged robots must achieve both robust locomotion and energy efficiency to be practical in real-world environments. Yet controllers trained in simulation often fail to transfer reliably, and most existing approaches neglect actuator-specific energy losses or depend on complex, hand-tuned reward formulations. We propose a framework that integrates sim-to-real reinforcement learning with a physics-grounded energy model for permanent magnet synchronous motors. The framework requires a minimal parameter set to capture the simulation-to-reality gap and employs a compact four-term reward with a first-principle-based energetic loss formulation that balances electrical and mechanical dissipation. We evaluate and validate the approach through a bottom-up dynamic parameter identification study, spanning actuators, full-robot in-air trajectories and on-ground locomotion. The framework is tested on three primary platforms and deployed on ten additional robots, demonstrating reliable policy transfer without randomization of dynamic parameters. Our method improves energetic efficiency over state-of-the-art methods, achieving a 32 percent reduction in the full Cost of Transport of ANYmal (value 1.27). All code, models, and datasets will be released.