SAC-MoE: Reinforcement Learning with Mixture-of-Experts for Control of Hybrid Dynamical Systems with Uncertainty
作者: Leroy D'Souza, Akash Karthikeyan, Yash Vardhan Pant, Sebastian Fischmeister
分类: cs.RO, eess.SY
发布日期: 2025-11-15
💡 一句话要点
提出SAC-MoE,利用混合专家模型强化学习控制不确定性混合动力系统
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 混合动力系统 强化学习 混合专家模型 软演员-评论家 课程学习
📋 核心要点
- 传统控制方法难以应对混合动力系统中不可观测参数和模式切换带来的不确定性,导致泛化能力不足。
- SAC-MoE将SAC的actor建模为混合专家模型,通过学习路由选择器自适应选择专家,从而应对模式切换。
- 通过课程学习策略,优先在困难环境中收集数据,显著提升了模型在未知环境下的零样本泛化能力。
📝 摘要(中文)
混合动力系统由连续变量动力学与离散事件相互作用产生,包含如腿式机器人、车辆和飞机等多种系统。当系统的模式具有不可观测的(潜在的)参数,并且导致系统动力学在不同模式之间切换的事件也是不可观测的时,挑战就会出现。基于模型的控制方法通常不考虑混合动力学中的这种不确定性,而标准的无模型强化学习方法无法解释突发的模式切换,导致泛化能力差。为了克服这些问题,我们提出了SAC-MoE,它将软演员-评论家(SAC)框架的actor建模为混合专家(MoE),并使用学习到的路由选择器自适应地选择专家。为了进一步提高鲁棒性,我们开发了一种基于课程的学习算法,以优先在具有挑战性的环境中收集数据,从而更好地泛化到未见过的模式和切换位置。在混合自主赛车和腿式运动任务中的仿真研究表明,SAC-MoE在零样本泛化到未见过的环境中优于基线方法(高达6倍)。我们的课程策略始终提高所有评估策略的性能。定性分析表明,可解释的MoE路由选择器为不同的潜在模式激活不同的专家。
🔬 方法详解
问题定义:论文旨在解决具有不确定性的混合动力系统的控制问题。现有基于模型的控制方法难以处理系统模式和切换事件的不可观测性,而标准无模型强化学习方法无法有效应对突发的模式切换,导致泛化性能差。
核心思路:论文的核心思路是将强化学习中的actor建模为混合专家模型(MoE),利用MoE处理不同模式的能力,并通过学习到的路由选择器自适应地选择合适的专家来应对不同的系统状态和模式。这种方法旨在提高模型对未见过的模式和切换位置的泛化能力。
技术框架:SAC-MoE方法基于软演员-评论家(SAC)框架。其主要组成部分包括:1) Actor网络,由一个混合专家模型(MoE)组成,每个专家负责处理特定的系统模式;2) 路由选择器,用于根据当前状态选择合适的专家;3) Critic网络,用于评估当前策略的价值;4) 课程学习策略,用于指导数据收集,优先选择具有挑战性的环境。整体流程是,Actor根据当前状态和路由选择器选择的专家输出动作,环境根据动作产生新的状态和奖励,Critic评估动作的价值,并用于更新Actor和Critic网络。
关键创新:该论文的关键创新在于将混合专家模型(MoE)引入到强化学习的actor中,并学习一个路由选择器来动态选择专家。这种方法使得actor能够更好地适应不同的系统模式,从而提高泛化能力。此外,课程学习策略也进一步提高了模型的鲁棒性。
关键设计:MoE的结构包括多个专家网络和一个路由选择器。路由选择器通常是一个softmax函数,根据输入状态计算每个专家的权重。损失函数包括SAC的标准损失函数以及用于训练路由选择器的辅助损失函数。课程学习策略通过调整环境的难度来引导数据收集,例如,在自主赛车任务中,可以逐渐增加赛道的复杂性。
📊 实验亮点
实验结果表明,SAC-MoE在混合自主赛车和腿式运动任务中,相比于基线方法,在零样本泛化到未见过的环境中性能提升高达6倍。课程学习策略在所有评估策略中均能稳定提升性能。定性分析表明,MoE路由选择器能够为不同的潜在模式激活不同的专家,验证了该方法的有效性。
🎯 应用场景
SAC-MoE方法可应用于各种具有不确定性和混合动力学特性的系统控制,例如腿式机器人、自动驾驶车辆、飞行器等。该方法能够提高这些系统在复杂和未知环境中的鲁棒性和泛化能力,具有重要的实际应用价值。未来,该方法可以进一步扩展到更复杂的混合动力系统,并与其他控制技术相结合,实现更高级的自主控制。
📄 摘要(原文)
Hybrid dynamical systems result from the interaction of continuous-variable dynamics with discrete events and encompass various systems such as legged robots, vehicles and aircrafts. Challenges arise when the system's modes are characterized by unobservable (latent) parameters and the events that cause system dynamics to switch between different modes are also unobservable. Model-based control approaches typically do not account for such uncertainty in the hybrid dynamics, while standard model-free RL methods fail to account for abrupt mode switches, leading to poor generalization. To overcome this, we propose SAC-MoE which models the actor of the Soft Actor-Critic (SAC) framework as a Mixture-of-Experts (MoE) with a learned router that adaptively selects among learned experts. To further improve robustness, we develop a curriculum-based training algorithm to prioritize data collection in challenging settings, allowing better generalization to unseen modes and switching locations. Simulation studies in hybrid autonomous racing and legged locomotion tasks show that SAC-MoE outperforms baselines (up to 6x) in zero-shot generalization to unseen environments. Our curriculum strategy consistently improves performance across all evaluated policies. Qualitative analysis shows that the interpretable MoE router activates different experts for distinct latent modes.