CMoE: Contrastive Mixture of Experts for Motion Control and Terrain Adaptation of Humanoid Robots
作者: Shihao Ma, Hongjin Chen, Zijun Xu, Yi Zhao, Ke Wu, Ruichen Yang, Leyao Zou, Zhongxue Gan, Wenchao Ding
分类: cs.RO
发布日期: 2026-03-03
💡 一句话要点
提出CMoE,通过对比学习提升人形机器人运动控制和地形适应能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人形机器人 混合专家模型 对比学习 强化学习 地形适应
📋 核心要点
- 现有MoE方法在人形机器人地形适应中专家激活分布均匀,导致专家泛化能力不足。
- CMoE通过对比学习约束专家激活,增强同一地形激活一致性,降低不同地形激活相似性。
- 实验表明,CMoE使机器人能够穿越更高台阶和更宽间隙,并在混合地形上实现更自然的步态。
📝 摘要(中文)
为了在真实环境中有效部署,人形机器人必须自主导航各种复杂地形,包括突变的地形过渡。虽然Vanilla混合专家(MoE)框架在理论上能够建模不同的地形特征,但实际上,门控网络在不同地形上表现出几乎均匀的专家激活,削弱了专家的专业化,限制了模型的表达能力。为了解决这个限制,我们引入了CMoE,一种新颖的单阶段强化学习框架,它集成了对比学习来细化专家激活分布。通过施加对比约束,CMoE最大化同一地形内专家激活的一致性,同时最小化不同地形之间专家激活的相似性,从而鼓励专家专注于不同的地形类型。我们通过一系列具有挑战性的实验在Unitree G1人形机器人上验证了我们的方法。结果表明,CMoE使机器人能够穿越高达20厘米的连续台阶和宽达80厘米的间隙,同时在各种混合地形上实现稳健自然的步态,超越了现有方法的限制。为了支持进一步的研究和促进社区发展,我们公开发布了我们的代码。
🔬 方法详解
问题定义:人形机器人在复杂地形下的运动控制和地形适应是一个关键问题。现有的混合专家模型(MoE)虽然理论上可以处理不同地形,但实际应用中,门控网络无法有效区分不同地形,导致专家激活分布趋于均匀,专家无法针对特定地形进行专业化学习,限制了模型的性能。
核心思路:CMoE的核心思路是通过对比学习来优化MoE模型的专家激活分布。具体来说,对于同一地形,希望专家激活尽可能相似;对于不同地形,希望专家激活尽可能不同。通过这种方式,鼓励每个专家专注于特定的地形类型,从而提高模型的表达能力和泛化能力。
技术框架:CMoE是一个单阶段强化学习框架,主要包含三个模块:环境交互模块、MoE模块和对比学习模块。环境交互模块负责与环境进行交互,收集训练数据。MoE模块包含一个门控网络和多个专家网络,门控网络根据输入的地形特征,为每个专家分配权重,专家网络根据权重进行加权融合,输出最终的动作。对比学习模块则根据收集到的数据,计算对比损失,用于优化门控网络的参数,从而实现专家激活分布的优化。
关键创新:CMoE的关键创新在于将对比学习引入到MoE框架中,通过对比损失来约束专家激活分布,从而提高模型的表达能力和泛化能力。与传统的MoE方法相比,CMoE能够更有效地利用专家资源,使每个专家专注于特定的地形类型。
关键设计:CMoE的关键设计包括:1) 对比损失函数的选择,论文采用了InfoNCE损失函数,该损失函数能够有效地衡量同一地形内激活的相似性和不同地形间激活的差异性。2) 门控网络的结构,论文采用了多层感知机作为门控网络,能够有效地提取地形特征。3) 专家网络的数量,论文根据实验结果选择了合适的专家数量,以平衡模型的复杂度和性能。
🖼️ 关键图片
📊 实验亮点
CMoE在Unitree G1人形机器人上的实验结果表明,该方法能够使机器人穿越高达20厘米的连续台阶和宽达80厘米的间隙,显著优于现有方法。此外,CMoE还在各种混合地形上实现了稳健自然的步态,证明了其在复杂环境中的适应能力。
🎯 应用场景
CMoE技术可应用于各种人形机器人,使其能够在复杂和未知的地形中自主导航。这对于搜索救援、物流运输、工业巡检等领域具有重要意义。未来,该技术有望扩展到其他类型的机器人,例如四足机器人和轮式机器人,从而提高它们在复杂环境中的适应能力。
📄 摘要(原文)
For effective deployment in real-world environments, humanoid robots must autonomously navigate a diverse range of complex terrains with abrupt transitions. While the Vanilla mixture of experts (MoE) framework is theoretically capable of modeling diverse terrain features, in practice, the gating network exhibits nearly uniform expert activations across different terrains, weakening the expert specialization and limiting the model's expressive power. To address this limitation, we introduce CMoE, a novel single-stage reinforcement learning framework that integrates contrastive learning to refine expert activation distributions. By imposing contrastive constraints, CMoE maximizes the consistency of expert activations within the same terrain while minimizing their similarity across different terrains, thereby encouraging experts to specialize in distinct terrain types. We validated our approach on the Unitree G1 humanoid robot through a series of challenging experiments. Results demonstrate that CMoE enables the robot to traverse continuous steps up to 20 cm high and gaps up to 80 cm wide, while achieving robust and natural gait across diverse mixed terrains, surpassing the limits of existing methods. To support further research and foster community development, we release our code publicly.