Multi-Agent Reinforcement Learning via Distributed MPC as a Function Approximator

📄 arXiv: 2312.05166v4 📥 PDF

作者: Samuel Mallick, Filippo Airaldi, Azita Dabiri, Bart De Schutter

分类: eess.SY

发布日期: 2023-12-08 (更新: 2024-12-18)

备注: 12 pages, 8 figures, accepted for publication in Automatica, code can be found at https://github.com/SamuelMallick/dmpcrl-concept/tree/paper-2023

DOI: 10.1016/j.automatica.2024.111803


💡 一句话要点

提出基于分布式MPC函数逼近器的多智能体强化学习方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 分布式MPC Q学习 函数逼近 分布式优化

📋 核心要点

  1. 现有强化学习方法在多智能体系统中面临非平稳性和集中式计算瓶颈。
  2. 论文提出使用分布式模型预测控制(MPC)作为函数逼近器,实现分布式学习和部署。
  3. 通过数值实验验证了该方法在多智能体系统中的有效性,实现了分布式Q学习。

📝 摘要(中文)

本文提出了一种针对具有凸多胞形约束的线性系统的多智能体强化学习(RL)新方法。现有研究表明,模型预测控制(MPC)可用作策略和价值函数的函数逼近器。本文首次将这一思想扩展到多智能体环境。我们提出使用分布式MPC方案作为函数逼近器,其结构允许分布式学习和部署。然后,我们证明了可以通过重构集中式学习更新来分布式地执行Q学习更新,而不会引入非平稳性。通过两个数值例子验证了该方法的有效性。

🔬 方法详解

问题定义:论文旨在解决多智能体强化学习中,当系统规模增大时,集中式学习方法计算复杂度高,难以扩展的问题。现有方法在多智能体场景下容易出现非平稳性,影响学习效果。

核心思路:论文的核心思路是将分布式模型预测控制(DMPC)作为Q函数的函数逼近器。每个智能体使用DMPC进行局部策略优化,并通过分布式的方式进行Q学习更新。这样既能利用MPC的优化能力,又能实现分布式学习,降低计算复杂度。

技术框架:整体框架包括以下几个主要模块:1) 每个智能体都有一个局部MPC控制器,负责根据当前状态和邻居智能体的状态,计算局部控制策略。2) 分布式Q学习模块,负责根据局部奖励和邻居智能体的Q值,更新局部Q函数。3) 信息交互模块,负责智能体之间状态和Q值的传递。整个流程是每个智能体独立进行MPC控制和Q学习更新,并通过信息交互实现协同。

关键创新:论文的关键创新在于将DMPC与Q学习相结合,提出了一种分布式的多智能体强化学习方法。与传统的集中式Q学习相比,该方法降低了计算复杂度,提高了可扩展性。与直接使用DMPC相比,该方法通过Q学习能够适应更复杂的环境和任务。

关键设计:DMPC的设计需要考虑智能体之间的耦合关系,通常采用迭代优化或交替方向乘子法(ADMM)等方法求解。Q学习的更新规则需要进行修改,以适应分布式环境。例如,可以使用平均场理论或图神经网络等方法来估计邻居智能体的Q值。损失函数通常采用时序差分误差(TD error)。

📊 实验亮点

论文通过两个数值例子验证了所提出方法的有效性。实验结果表明,该方法能够实现多智能体系统的协同控制,并且具有良好的学习性能。具体的性能数据和对比基线在论文中进行了详细的展示,证明了该方法相对于传统方法的优势。

🎯 应用场景

该研究成果可应用于机器人集群控制、智能交通系统、分布式能源管理等领域。通过分布式学习,可以实现大规模多智能体系统的协同控制和优化,提高系统的效率和鲁棒性。未来可进一步探索该方法在非线性系统和非凸约束下的应用。

📄 摘要(原文)

This paper presents a novel approach to multi-agent reinforcement learning (RL) for linear systems with convex polytopic constraints. Existing work on RL has demonstrated the use of model predictive control (MPC) as a function approximator for the policy and value functions. The current paper is the first work to extend this idea to the multi-agent setting. We propose the use of a distributed MPC scheme as a function approximator, with a structure allowing for distributed learning and deployment. We then show that Q-learning updates can be performed distributively without introducing nonstationarity, by reconstructing a centralized learning update. The effectiveness of the approach is demonstrated on two numerical examples.