Contrastive Representation Learning for Robust Sim-to-Real Transfer of Adaptive Humanoid Locomotion

📄 arXiv: 2509.12858v1 📥 PDF

作者: Yidan Lu, Rurui Yang, Qiran Kou, Mengting Chen, Tao Fan, Peter Cui, Yinzhao Dong, Peng Lu

分类: cs.RO

发布日期: 2025-09-16

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出对比学习框架,提升人形机器人适应性步态的Sim-to-Real迁移鲁棒性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人 强化学习 对比学习 Sim-to-Real 运动控制

📋 核心要点

  1. 现有强化学习方法在人形机器人运动控制中面临鲁棒性和主动性之间的权衡,纯本体感受控制鲁棒但缺乏主动性,感知驱动系统主动但脆弱。
  2. 论文提出一种对比学习框架,通过让Actor的潜在状态编码模拟环境中的特权信息,赋予纯本体感受策略主动能力,实现“提炼的感知”。
  3. 实验结果表明,该方法实现了零样本Sim-to-Real迁移,在复杂地形上表现出高度鲁棒的运动能力,验证了方法的有效性。

📝 摘要(中文)

强化学习在人形机器人运动控制方面取得了显著进展,但实际部署面临一个根本困境:策略必须在反应式本体感受控制的鲁棒性和复杂、脆弱的感知驱动系统的主动性之间做出选择。本文通过引入一种范例来解决这一困境,该范例使纯本体感受策略具备主动能力,从而在不产生部署时成本的情况下实现感知的远见。我们的核心贡献是一个对比学习框架,它迫使Actor的潜在状态编码来自模拟环境的特权信息。至关重要的是,这种“提炼的感知”赋予自适应步态时钟能力,使策略能够根据对地形的推断理解主动调整其节奏。这种协同作用解决了刚性、时钟驱动步态和不稳定的无时钟策略之间的经典权衡。我们通过零样本Sim-to-Real迁移到全尺寸人形机器人来验证我们的方法,展示了在具有挑战性的地形(包括30厘米高的台阶和26.5°的斜坡)上的高度鲁棒的运动,证明了我们方法的有效性。

🔬 方法详解

问题定义:现有基于强化学习的人形机器人运动控制方法,要么依赖于鲁棒但缺乏主动性的本体感受控制,要么依赖于主动但脆弱的感知驱动系统。如何在保证鲁棒性的前提下,赋予机器人主动适应环境的能力,是本文要解决的核心问题。现有方法的痛点在于,感知模块的引入会增加系统的复杂性和脆弱性,难以实现可靠的Sim-to-Real迁移。

核心思路:本文的核心思路是通过对比学习,将模拟环境中的特权信息(例如地形信息)“提炼”到Actor的潜在状态中。这样,即使在真实环境中没有感知模块,机器人也能通过潜在状态“感知”环境,从而主动调整步态。这种方法避免了直接使用感知模块带来的脆弱性,同时保留了主动适应环境的能力。

技术框架:整体框架包含一个在模拟环境中训练的强化学习策略。该策略的Actor网络接收本体感受信息作为输入,并输出动作。关键在于,Actor网络的潜在状态通过对比学习与模拟环境中的特权信息对齐。具体来说,使用一个对比损失函数,使得相似环境状态下的潜在状态更加接近,而不同环境状态下的潜在状态更加远离。训练完成后,将该策略直接部署到真实机器人上,无需任何微调。

关键创新:最重要的技术创新点在于使用对比学习将模拟环境中的特权信息“提炼”到Actor的潜在状态中。与传统的Sim-to-Real方法不同,本文不需要显式地模拟真实环境的噪声或使用域随机化,而是通过对比学习隐式地学习环境的表示。这使得策略更加鲁棒,更容易迁移到真实环境。

关键设计:关键的技术细节包括:1) 使用Transformer网络作为Actor,以更好地捕捉时间依赖关系;2) 设计对比损失函数,鼓励相似环境状态下的潜在状态更加接近;3) 使用自适应步态时钟,根据潜在状态调整步态节奏,从而实现主动适应环境。

📊 实验亮点

该方法实现了零样本Sim-to-Real迁移,在全尺寸人形机器人上验证了其有效性。实验结果表明,该机器人能够在具有挑战性的地形上实现高度鲁棒的运动,包括30厘米高的台阶和26.5°的斜坡。这些结果显著优于传统的基于本体感受控制的方法,证明了对比学习在提升Sim-to-Real迁移鲁棒性方面的潜力。

🎯 应用场景

该研究成果可应用于各种复杂地形下的人形机器人运动控制,例如搜索救援、灾后重建、工业巡检等场景。通过提升机器人的环境适应性和运动鲁棒性,可以使其在更广泛的实际应用中发挥作用。未来,该方法还可以扩展到其他类型的机器人和任务中,例如四足机器人、无人驾驶车辆等。

📄 摘要(原文)

Reinforcement learning has produced remarkable advances in humanoid locomotion, yet a fundamental dilemma persists for real-world deployment: policies must choose between the robustness of reactive proprioceptive control or the proactivity of complex, fragile perception-driven systems. This paper resolves this dilemma by introducing a paradigm that imbues a purely proprioceptive policy with proactive capabilities, achieving the foresight of perception without its deployment-time costs. Our core contribution is a contrastive learning framework that compels the actor's latent state to encode privileged environmental information from simulation. Crucially, this ``distilled awareness" empowers an adaptive gait clock, allowing the policy to proactively adjust its rhythm based on an inferred understanding of the terrain. This synergy resolves the classic trade-off between rigid, clocked gaits and unstable clock-free policies. We validate our approach with zero-shot sim-to-real transfer to a full-sized humanoid, demonstrating highly robust locomotion over challenging terrains, including 30 cm high steps and 26.5° slopes, proving the effectiveness of our method. Website: https://lu-yidan.github.io/cra-loco.