MPC-Inspired Reinforcement Learning for Verifiable Model-Free Control

📄 arXiv: 2312.05332v5 📥 PDF

作者: Yiwen Lu, Zishuo Li, Yihan Zhou, Na Li, Yilin Mo

分类: eess.SY, cs.LG, cs.RO, math.OC

发布日期: 2023-12-08 (更新: 2024-04-09)


💡 一句话要点

提出基于MPC启发的强化学习控制器,实现可验证的无模型控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 模型预测控制 可验证控制 无模型控制 参数化控制器

📋 核心要点

  1. 传统DRL控制器(如MLP)在可验证性和性能保证方面存在不足,难以满足安全关键应用的需求。
  2. 该论文提出一种基于MPC启发的参数化控制器,利用DRL训练控制器参数,兼顾了MPC的可验证性和DRL的灵活性。
  3. 实验结果表明,该控制器在控制性能、鲁棒性和计算效率方面均表现出色,并在车辆漂移动作任务中验证了其潜力。

📝 摘要(中文)

本文提出了一种新型的参数化控制器,其设计灵感来源于模型预测控制(MPC)。该控制器类似于线性MPC问题的二次规划(QP)求解器,但控制器的参数不是从系统模型中推导出来的,而是通过深度强化学习(DRL)进行训练。这种方法解决了DRL中常用的多层感知器(MLP)或其他通用神经网络架构的控制器在可验证性和性能保证方面的局限性。所学习的控制器具有类似于MPC的可验证属性,如持续可行性和渐近稳定性。数值算例表明,所提出的控制器在控制性能上与MPC和MLP控制器相当,并且对建模不确定性和噪声具有更强的鲁棒性。此外,与MPC相比,该控制器计算效率更高,并且比MLP控制器需要学习的参数更少。在车辆漂移动作任务上的真实实验证明了这些控制器在机器人和其他高要求控制任务中的潜力。

🔬 方法详解

问题定义:现有基于深度强化学习(DRL)的控制器,特别是使用多层感知器(MLP)等通用神经网络架构的控制器,虽然在某些控制任务上表现良好,但缺乏可验证的性能保证,例如稳定性、安全性等。这限制了它们在安全关键领域的应用,例如机器人、自动驾驶等。此外,这些控制器通常需要大量的训练数据和计算资源,并且对建模误差和噪声敏感。

核心思路:本文的核心思路是将模型预测控制(MPC)的结构融入到DRL控制器设计中。具体来说,设计一个参数化的控制器,其形式类似于线性MPC问题的二次规划(QP)求解器。但与传统MPC不同的是,该控制器的参数不是通过系统模型推导得到的,而是通过DRL进行学习。这样既可以利用MPC的结构来保证控制器的可验证性(例如,通过约束设计保证可行性和稳定性),又可以利用DRL的灵活性来处理复杂的非线性系统和建模不确定性。

技术框架:整体框架包含环境、智能体和奖励函数。智能体由一个参数化的控制器构成,该控制器接收当前状态作为输入,输出控制动作。控制器内部结构类似于线性MPC的QP求解器,包含状态预测、成本函数和约束条件等模块。DRL算法(具体算法未知)用于训练控制器的参数,目标是最大化累积奖励。训练完成后,该控制器可以直接用于控制任务。

关键创新:最重要的技术创新点在于将MPC的结构与DRL相结合,设计了一种新型的参数化控制器。这种控制器既具有MPC的可验证性,又具有DRL的灵活性和适应性。与传统的DRL控制器相比,该控制器更容易进行形式化验证,并且对建模误差和噪声具有更强的鲁棒性。与传统的MPC相比,该控制器不需要精确的系统模型,可以通过DRL从数据中学习控制策略。

关键设计:控制器的具体形式是一个参数化的QP求解器,其参数包括状态预测矩阵、成本函数权重、约束条件参数等。这些参数通过DRL进行训练。损失函数的设计需要考虑控制性能、稳定性和安全性等因素。具体的网络结构未知,但可以推测其输入是当前状态,输出是控制器的参数。约束条件的设计是保证控制器可行性和稳定性的关键,需要根据具体的控制任务进行选择。

📊 实验亮点

实验结果表明,所提出的控制器在控制性能上与MPC和MLP控制器相当,但在鲁棒性方面优于两者。具体来说,该控制器对建模不确定性和噪声具有更强的抵抗能力。此外,该控制器的计算效率远高于MPC,并且比MLP控制器需要学习的参数更少。在车辆漂移动作任务上的真实实验验证了该控制器在实际应用中的潜力。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、航空航天等需要高可靠性和安全性的控制领域。例如,可以用于设计具有安全保障的无人机控制器、自动驾驶车辆的轨迹跟踪控制器等。此外,该方法还可以应用于能源管理、过程控制等领域,提高系统的性能和鲁棒性。未来,该研究有望推动可验证人工智能和安全强化学习的发展。

📄 摘要(原文)

In this paper, we introduce a new class of parameterized controllers, drawing inspiration from Model Predictive Control (MPC). The controller resembles a Quadratic Programming (QP) solver of a linear MPC problem, with the parameters of the controller being trained via Deep Reinforcement Learning (DRL) rather than derived from system models. This approach addresses the limitations of common controllers with Multi-Layer Perceptron (MLP) or other general neural network architecture used in DRL, in terms of verifiability and performance guarantees, and the learned controllers possess verifiable properties like persistent feasibility and asymptotic stability akin to MPC. On the other hand, numerical examples illustrate that the proposed controller empirically matches MPC and MLP controllers in terms of control performance and has superior robustness against modeling uncertainty and noises. Furthermore, the proposed controller is significantly more computationally efficient compared to MPC and requires fewer parameters to learn than MLP controllers. Real-world experiments on vehicle drift maneuvering task demonstrate the potential of these controllers for robotics and other demanding control tasks.