Physics Informed Reinforcement Learning with Gibbs Priors for Topology Control in Power Grids

📄 arXiv: 2604.01830v1 📥 PDF

作者: Pantelis Dogoulis, Maxime Cordy

分类: cs.LG, eess.SY

发布日期: 2026-04-02


💡 一句话要点

提出基于吉布斯先验的物理信息强化学习,用于电力网络拓扑控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 电力网络拓扑控制 物理信息强化学习 吉布斯先验 图神经网络 半马尔可夫决策过程

📋 核心要点

  1. 电力网络拓扑控制面临动作空间组合爆炸和仿真评估成本高的挑战,现有方法难以兼顾控制质量和计算效率。
  2. 该论文提出一种物理信息强化学习框架,利用吉布斯先验编码系统物理特性,指导动作选择,降低探索难度和在线仿真成本。
  3. 实验表明,该方法在多个真实电力网络基准测试中,显著提升了控制质量和计算效率,优于现有强化学习和工程方法。

📝 摘要(中文)

电力网络拓扑控制是一个具有挑战性的序贯决策问题,因为动作空间随着网络规模呈组合增长,并且通过仿真进行动作评估的计算成本很高。我们提出了一种物理信息强化学习框架,该框架结合了半马尔可夫控制和一个基于吉布斯先验的动作空间,该先验编码了系统的物理特性。仅当电网进入危险状态时才进行决策,同时图神经网络代理预测可行拓扑动作的后动作过载风险。这些预测用于构建物理信息吉布斯先验,该先验既选择一个小的状态相关候选集,又在动作选择之前重新加权策略logits。通过这种方式,我们的方法降低了探索难度和在线仿真成本,同时保留了学习策略的灵活性。我们在三个难度递增的真实基准环境中评估了该方法。在所有设置中,所提出的方法在控制质量和计算效率之间实现了强大的平衡:它匹配了oracle级别的性能,同时在第一个基准上速度提高了约6倍,在第二个基准上以大约200倍的决策时间达到了oracle奖励的94.6%,并且在最具挑战性的基准上,与PPO基线相比,奖励提高了高达255%,存活步数提高了284%,同时比强大的专业工程基线快约2.5倍。这些结果表明,我们的方法为电力网络中的拓扑控制提供了一种有效的机制。

🔬 方法详解

问题定义:电力网络拓扑控制旨在通过调整网络连接来优化运行状态,例如降低线路过载风险。然而,随着网络规模增大,可能的拓扑结构数量呈指数级增长,导致动作空间巨大。此外,评估每个动作的效果需要耗时的电力系统仿真,使得传统的强化学习方法难以应用。现有方法往往难以在控制性能和计算效率之间取得平衡。

核心思路:该论文的核心思路是将电力系统的物理知识融入到强化学习框架中,从而指导智能体进行更有效的探索和决策。具体而言,利用吉布斯分布对动作空间进行先验约束,使得智能体更有可能选择符合物理规律且有益于系统稳定的动作。这种物理信息的融入可以显著减少需要探索的动作数量,降低计算成本,并提高学习效率。

技术框架:该方法采用半马尔可夫决策过程(SMDP)框架,仅在电网进入危险状态时才进行拓扑控制决策。整体流程包括以下几个步骤:1) 使用图神经网络(GNN)预测每个可行拓扑动作的后动作过载风险;2) 基于GNN的预测结果,构建一个物理信息吉布斯先验,用于选择一个小的状态相关候选动作集,并重新加权策略logits;3) 使用强化学习算法(例如PPO)训练智能体,使其能够根据当前状态和吉布斯先验选择最优动作。

关键创新:该论文的关键创新在于将物理信息以吉布斯先验的形式融入到强化学习框架中。与传统的强化学习方法相比,该方法能够利用电力系统的物理知识来指导动作选择,从而显著降低探索难度和计算成本。此外,使用GNN来预测动作的后动作风险,进一步提高了动作评估的效率。

关键设计:吉布斯先验的构建依赖于GNN对动作后过载风险的预测。GNN的输入是电网的状态信息和拓扑动作,输出是每个线路的过载概率。吉布斯分布的能量函数与GNN预测的过载风险相关,使得风险越低的动作具有越高的概率被选择。此外,论文还采用了半马尔可夫决策过程,仅在电网进入危险状态时才进行决策,进一步降低了计算成本。

📊 实验亮点

实验结果表明,该方法在三个真实电力网络基准测试中均取得了显著的性能提升。在第一个基准测试中,该方法在匹配oracle级别性能的同时,速度提高了约6倍。在第二个基准测试中,该方法以大约200倍的决策时间达到了oracle奖励的94.6%。在最具挑战性的基准测试中,与PPO基线相比,奖励提高了高达255%,存活步数提高了284%,同时比强大的专业工程基线快约2.5倍。

🎯 应用场景

该研究成果可应用于实际电力网络的在线拓扑控制,提高电网运行的安全性和可靠性。通过快速调整网络拓扑,可以有效缓解线路过载、提高电压稳定性,并优化电网的整体性能。该方法还可扩展到其他类型的能源系统,例如天然气网络和热力网络。

📄 摘要(原文)

Topology control for power grid operation is a challenging sequential decision making problem because the action space grows combinatorially with the size of the grid and action evaluation through simulation is computationally expensive. We propose a physics-informed Reinforcement Learning framework that combines semi-Markov control with a Gibbs prior, that encodes the system's physics, over the action space. The decision is only taken when the grid enters a hazardous regime, while a graph neural network surrogate predicts the post action overload risk of feasible topology actions. These predictions are used to construct a physics-informed Gibbs prior that both selects a small state-dependent candidate set and reweights policy logits before action selection. In this way, our method reduces exploration difficulty and online simulation cost while preserving the flexibility of a learned policy. We evaluate the approach in three realistic benchmark environments of increasing difficulty. Across all settings, the proposed method achieves a strong balance between control quality and computational efficiency: it matches oracle-level performance while being approximately $6\times$ faster on the first benchmark, reaches $94.6\%$ of oracle reward with roughly $200\times$ lower decision time on the second one, and on the most challenging benchmark improves over a PPO baseline by up to $255\%$ in reward and $284\%$ in survived steps while remaining about $2.5\times$ faster than a strong specialized engineering baseline. These results show that our method provides an effective mechanism for topology control in power grids.