Learning a convex cost-to-go for single step model predictive control
作者: E. M. Turan, Z. Mdoe, J. Jäschke
分类: eess.SY, math.OC
发布日期: 2023-12-05 (更新: 2025-03-04)
💡 一句话要点
提出学习凸Cost-to-Go方法,用于降低单步MPC的计算复杂度。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 模型预测控制 凸优化 Cost-to-Go函数 单步控制 输入凸神经网络
📋 核心要点
- 传统MPC计算复杂度高,难以应用于大型不确定系统,缩短预测步长会牺牲性能。
- 论文核心是学习凸Cost-to-Go函数,替代多步预测,降低在线计算负担,同时保证系统性能。
- 实验表明,相比于传统神经网络、LQR等方法,该方法能以更少的数据实现更好的控制性能。
📝 摘要(中文)
对于大型不确定系统,在线求解模型预测控制(MPC)问题计算量巨大。缩短预测步长可以缓解这个问题,但若不进行适当修改,可能导致性能下降和不稳定。本文着重于学习凸目标项,以实现单步控制,从而降低在线计算成本。我们考虑了两种Cost-to-Go的替代方法:(1) 凸插值函数和(2) 输入凸神经网络。无论选择哪种替代方法,其在原点附近的表现以及描述可行域的能力对于新MPC问题的闭环性能至关重要。为此,我们通过定制替代方法来确保在这两个方面都具有良好的性能。最后,通过数值例子,我们将凸替代方法与在目标函数中使用标准神经网络、仅使用LQR Cost-to-Go以及使用神经网络学习控制策略的方法进行了比较。结果表明,所提出的方法能够以更少的数据实现更好的性能。
🔬 方法详解
问题定义:论文旨在解决大型不确定系统在线MPC计算量大的问题。现有方法如缩短预测步长,会导致控制性能下降甚至系统不稳定。因此,需要一种方法在保证性能的前提下,显著降低在线计算负担。
核心思路:核心思路是学习一个凸的Cost-to-Go函数,用以近似多步预测的累积代价。通过将多步预测问题转化为单步优化问题,极大地降低了在线计算复杂度。凸性保证了优化问题的求解效率,便于实时控制。
技术框架:整体框架包括离线学习阶段和在线控制阶段。离线阶段,利用系统数据学习Cost-to-Go函数的凸近似,包括凸插值函数和输入凸神经网络两种方法。在线阶段,使用学习到的Cost-to-Go函数构建单步MPC问题,并进行实时优化控制。
关键创新:关键创新在于使用凸函数近似Cost-to-Go,并将其应用于单步MPC。与直接学习控制策略或使用非凸神经网络相比,凸性保证了优化问题的可解性和求解效率,同时Cost-to-Go函数的设计考虑了原点附近的行为和可行域的描述,提高了控制性能。
关键设计:论文考虑了两种Cost-to-Go函数的凸近似:凸插值函数和输入凸神经网络。对于凸插值函数,需要选择合适的插值方法和插值点。对于输入凸神经网络,需要设计合适的网络结构和损失函数,以保证网络的凸性和Cost-to-Go函数的准确性。此外,论文还特别关注Cost-to-Go函数在原点附近的行为,并设计了相应的约束,以保证系统的稳定性。
📊 实验亮点
数值实验表明,所提出的基于凸Cost-to-Go的单步MPC方法,相比于使用标准神经网络、LQR Cost-to-Go以及神经网络学习控制策略的方法,能够以更少的数据实现更好的控制性能。具体而言,在相同的训练数据量下,该方法能够获得更低的控制误差和更高的系统稳定性。
🎯 应用场景
该研究成果可应用于计算资源受限的大型复杂系统控制,例如机器人集群控制、智能电网优化、自动驾驶车辆的运动规划等。通过降低在线计算负担,使得更复杂的控制算法能够部署在实时性要求高的场景中,具有重要的实际应用价值。
📄 摘要(原文)
For large uncertain systems, solving model predictive control problems online can be computationally taxing. Using a shorter prediction horizon can help, but may lead to poor performance and instability without appropriate modifications. This work focuses on learning convex objective terms to enable a single-step control horizon, reducing online computational costs. We consider two surrogates for approximating the cost-to-go: (1) a convex interpolating function and (2) an input-convex neural network. Regardless of the surrogate choice, its behavior near the origin and its ability to describe the feasible region are crucial for the closed-loop performance of the new MPC problem. We address this by tailoring the surrogate to ensure good performance in both aspects. We conclude with numerical examples, in which we compare the convex surrogates to using a standard neural network in the objective, solely using an LQR cost-to-go, and to using a neural network to learn a control policy. The proposed approaches are shown to achieve better performance with less data.