Bridging RL and MPC for mixed-integer optimal control with application to Formula 1 race strategies

📄 arXiv: 2604.00826v1 📥 PDF

作者: Joschua Wüthrich, Romir Damle, Giona Fieni, Melanie N. Zeilinger, Christopher H. Onder, Andrea Carron

分类: eess.SY

发布日期: 2026-04-01

备注: 8 pages, 5 figures; This work has been submitted to the IEEE for possible publication


💡 一句话要点

提出混合强化学习与模型预测控制框架,解决混合整数最优控制问题,应用于F1赛车策略。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 模型预测控制 混合整数优化 最优控制 赛车策略 混合动作空间 Actor-Critic

📋 核心要点

  1. 现有混合整数最优控制方法通常只用强化学习处理离散动作,忽略了连续动作与离散动作的耦合。
  2. 该文提出混合RL和MPC框架,在混合动作空间训练RL智能体,保证与底层MDP成本一致性,提升控制性能。
  3. 实验表明,该方法在F1赛车策略问题上表现接近最优,优于单独RL,且能适应新扰动,无需重新训练。

📝 摘要(中文)

本文提出了一种混合强化学习(RL)和模型预测控制(MPC)框架,用于解决混合整数最优控制问题,其中离散变量出现在成本函数和动力学模型中,但不在约束条件中。现有的分层方法仅使用RL处理离散动作空间,而将连续优化留给MPC。与这些方法不同,我们在完整的混合动作空间上训练RL智能体,确保与底层马尔可夫决策过程的成本一致。在部署期间,RL actor在预测范围内展开,通过离散动作序列参数化一个无整数约束的非线性MPC,并提供连续的warm-start。学习到的critic作为终端成本,以捕捉长期性能。我们证明了递归可行性,并在一个F1赛车策略问题上验证了该框架。相对于离线混合整数非线性规划基准,该混合方法实现了接近最优的性能,优于独立的RL智能体。此外,该混合方案通过模块化的MPC扩展,能够适应未见过的扰动,而无需重新训练。

🔬 方法详解

问题定义:论文旨在解决混合整数最优控制问题,该问题中离散变量影响成本函数和系统动力学,但不在约束条件中。现有方法,如分层控制,通常只使用强化学习处理离散动作空间,而将连续控制交给模型预测控制。这种方法忽略了离散和连续动作之间的相互作用,可能导致次优解,并且RL智能体与底层MDP的成本不一致。

核心思路:论文的核心思路是将强化学习和模型预测控制相结合,利用强化学习学习混合动作空间上的策略,并将其作为模型预测控制的参数化和warm-start。通过在完整的混合动作空间上训练RL智能体,确保学习到的策略与底层马尔可夫决策过程的成本一致。同时,利用MPC的优化能力,对连续动作进行精细调整,提高控制性能。

技术框架:该混合框架包含以下主要模块:1) 强化学习智能体:负责学习混合动作空间上的策略,包括离散动作和连续动作。2) 模型预测控制器:利用强化学习智能体提供的离散动作序列作为参数,对连续动作进行优化。3) 终端成本函数:使用学习到的critic网络作为终端成本函数,以捕捉长期性能。在部署时,首先使用RL actor在预测范围内生成离散动作序列,然后将其传递给MPC,MPC利用该序列参数化优化问题,并提供连续动作的warm-start。

关键创新:该方法最重要的创新点在于在混合动作空间上训练强化学习智能体,确保学习到的策略与底层马尔可夫决策过程的成本一致。此外,利用学习到的critic网络作为终端成本函数,可以更好地捕捉长期性能。与现有方法相比,该方法能够更好地处理离散和连续动作之间的相互作用,提高控制性能。

关键设计:论文中,RL智能体使用Actor-Critic结构,Actor网络输出混合动作,Critic网络评估状态-动作对的价值。损失函数包括Actor网络的策略梯度损失和Critic网络的时序差分误差。MPC使用非线性模型预测控制,目标函数包括状态和动作的成本,以及终端成本。关键参数包括预测范围、控制频率、学习率等。

📊 实验亮点

实验结果表明,该混合方法在F1赛车策略问题上实现了接近最优的性能,相对于离线混合整数非线性规划基准,性能差距很小。此外,该方法优于独立的强化学习智能体,表明了混合框架的有效性。更重要的是,该混合方案能够通过模块化的MPC扩展,适应未见过的扰动,而无需重新训练,体现了其鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于各种混合整数最优控制问题,例如机器人运动规划、能源系统优化、供应链管理等。特别是在需要同时考虑离散决策(例如,选择哪个设备)和连续控制(例如,调节设备功率)的场景下,该方法具有很高的应用价值。在F1赛车策略问题上的成功应用表明,该方法在实际复杂系统控制中具有潜力。

📄 摘要(原文)

We propose a hybrid reinforcement learning (RL) and model predictive control (MPC) framework for mixed-integer optimal control, where discrete variables enter the cost and dynamics but not the constraints. Existing hierarchical approaches use RL only for the discrete action space, leaving continuous optimization to MPC. Unlike these methods, we train the RL agent on the full hybrid action space, ensuring consistency with the cost of the underlying Markov decision process. During deployment, the RL actor is rolled out over the prediction horizon to parametrize an integer-free nonlinear MPC through the discrete action sequence and provide a continuous warm-start. The learned critic serves as a terminal cost to capture long-term performance. We prove recursive feasibility, and validate the framework on a Formula 1 race strategy problem. The hybrid method achieves near-optimal performance relative to an offline mixed-integer nonlinear program benchmark, outperforming a standalone RL agent. Moreover, the hybrid scheme enables adaptation to unseen disturbances through modular MPC extensions at zero retraining cost.