Adaptive Data-Driven Min-Max MPC for Linear Time-Varying Systems

📄 arXiv: 2603.06536v1 📥 PDF

作者: Yifan Xie, Julian Berberich, Frank Allgöwer

分类: eess.SY

发布日期: 2026-03-06


💡 一句话要点

提出一种自适应数据驱动的Min-Max MPC方法,用于线性时变系统控制。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 模型预测控制 线性时变系统 数据驱动控制 自适应控制 半定规划

📋 核心要点

  1. 传统MPC方法依赖精确的系统模型,但在LTV系统中,模型不确定性和时变性导致控制性能下降。
  2. 该方法利用在线数据自适应更新状态反馈增益,通过求解半定规划(SDP)最小化成本上界,保证系统稳定性。
  3. 数值实验验证了该方法在LTV系统中的有效性,并扩展到具有过程噪声的系统,保证鲁棒稳定性。

📝 摘要(中文)

本文提出了一种用于离散时间线性时变(LTV)系统的自适应数据驱动的min-max模型预测控制(MPC)方案。我们假设系统动力学的先验知识和变化的界限是已知的,并且状态是在线测量的。该算法从先验知识导出的初始状态反馈增益开始,使用在线输入-状态数据更新状态反馈增益。为此,求解一个半定规划(SDP),以最小化无限时域最优成本的上界,并推导出相应的状态反馈增益。我们证明了由此产生的闭环系统是指数稳定的,并且满足约束。此外,我们将所提出的方案扩展到具有过程噪声的LTV系统。结果表明,闭环系统能够鲁棒地稳定到一个鲁棒正不变(RPI)集。最后,通过数值模拟验证了所提出的方法。

🔬 方法详解

问题定义:针对线性时变(LTV)系统,传统模型预测控制(MPC)方法对模型精度要求高,难以应对系统参数的时变性和不确定性,导致控制性能下降甚至系统不稳定。现有方法通常需要精确的系统模型或大量的离线数据训练,难以适应在线实时控制的需求。

核心思路:该论文的核心思路是利用在线采集的输入-状态数据,自适应地更新状态反馈增益,从而补偿模型的不确定性和时变性。通过求解一个半定规划(SDP)问题,最小化无限时域最优成本的上界,同时保证闭环系统的稳定性和约束满足。这种数据驱动的自适应方法可以在线学习系统动态,提高控制器的鲁棒性和适应性。

技术框架:该方法主要包含以下几个阶段:1) 初始化:基于先验知识设计初始状态反馈增益。2) 数据采集:在线采集系统的输入-状态数据。3) 参数更新:利用采集到的数据,求解半定规划(SDP)问题,更新状态反馈增益。4) 控制应用:将更新后的状态反馈增益应用于MPC控制器,实现闭环控制。5) 稳定性分析:证明闭环系统的指数稳定性或鲁棒稳定性。对于存在过程噪声的系统,需要额外设计鲁棒正不变(RPI)集,保证系统状态始终在安全区域内。

关键创新:该方法最重要的技术创新点在于提出了一种自适应的数据驱动的MPC方案,能够在线学习系统动态,并自适应地调整控制策略。与传统的基于模型的MPC方法相比,该方法不需要精确的系统模型,具有更强的鲁棒性和适应性。与离线学习方法相比,该方法能够在线更新控制策略,更好地适应系统的时变特性。

关键设计:关键设计包括:1) 半定规划(SDP)问题的设计:目标函数是最小化无限时域最优成本的上界,约束条件包括系统动态方程、稳定性约束和约束满足。2) 状态反馈增益的更新策略:利用在线数据,通过求解SDP问题,自适应地更新状态反馈增益。3) 鲁棒正不变(RPI)集的设计:对于存在过程噪声的系统,需要设计RPI集,保证系统状态始终在安全区域内。RPI集的大小直接影响控制性能,需要在稳定性和性能之间进行权衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

数值模拟结果表明,该方法能够有效地控制LTV系统,并保证闭环系统的指数稳定性。与传统的基于模型的MPC方法相比,该方法具有更强的鲁棒性和适应性。对于存在过程噪声的系统,该方法能够保证系统状态鲁棒地稳定到一个鲁棒正不变(RPI)集。具体的性能提升数据未知,但论文强调了其在模型不确定性下的优势。

🎯 应用场景

该研究成果可应用于各种需要高精度控制的线性时变系统,例如机器人控制、无人机控制、电力系统控制、以及过程控制等领域。特别是在系统模型难以精确获取或系统参数随时间变化的应用场景下,该方法具有重要的应用价值。未来,该方法可以进一步扩展到非线性系统和多智能体系统,具有广阔的应用前景。

📄 摘要(原文)

In this paper, we propose an adaptive data-driven min-max model predictive control (MPC) scheme for discrete-time linear time-varying (LTV) systems. We assume that prior knowledge of the system dynamics and bounds on the variations are known, and that the states are measured online. Starting from an initial state-feedback gain derived from prior knowledge, the algorithm updates the state-feedback gain using online input-state data. To this end, a semidefinite program (SDP) is solved to minimize an upper bound on the infinite-horizon optimal cost and to derive a corresponding state-feedback gain. We prove that the resulting closed-loop system is exponentially stabilized and satisfies the constraints. Further, we extend the proposed scheme to LTV systems with process noise. The resulting closed-loop system is shown to be robustly stabilized to a robust positive invariant (RPI) set. Finally, the proposed methods are demonstrated by numerical simulations.