Stable Relay Learning Optimization Approach for Fast Power System Production Cost Minimization Simulation

📄 arXiv: 2312.11896v1 📥 PDF

作者: Zishan Guo, Qinran Hu, Tao Qian, Xin Fang, Renjie Hu, Zaijun Wu

分类: eess.SY

发布日期: 2023-12-19

备注: Submitted to IEEE Transactions on Power Systems on December 15, 2023


💡 一句话要点

提出稳定中继学习优化方法,加速电力系统生产成本最小化仿真。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 电力系统 生产成本最小化 仿真优化 中继学习 模仿学习 强化学习 分支定界算法

📋 核心要点

  1. 电力系统生产成本最小化仿真耗时,现有加速方法常牺牲精度。
  2. 提出稳定中继学习优化方法,结合模仿学习和强化学习,在分支定界算法中加速求解。
  3. 实验表明,该方法在保证最优解的前提下,速度提升显著,且性能波动更小。

📝 摘要(中文)

生产成本最小化(PCM)仿真常用于评估电力系统的运行效率、经济可行性和可靠性,为电力系统规划和运行提供有价值的见解。然而,解决PCM问题非常耗时,因为其仿真范围跨越数月甚至数年,包含大量的二元变量。这阻碍了对具有多样化规划需求的现代能源系统的快速评估。现有的加速PCM的方法往往牺牲精度来换取速度。本文提出了一种在分支定界(B&B)算法中使用的稳定中继学习优化(s-RLO)方法。该方法提供快速和稳定的性能,并确保最优解。两阶段s-RLO包括用于精确策略初始化的模仿学习(IL)阶段和用于时间高效微调的强化学习(RL)阶段。在流行的SCIP求解器上实施时,s-RLO返回最优解的速度比默认的relpscost规则快2倍,比IL快1.4倍,或者在预定义的时间限制内表现出更小的差距。所提出的方法表现出稳定的性能,与IL相比,波动减少了约50%。数值结果支持了所提出的s-RLO方法的有效性。

🔬 方法详解

问题定义:论文旨在解决电力系统生产成本最小化(PCM)仿真耗时的问题。现有的加速PCM的方法,例如启发式算法或简化模型,通常以牺牲精度为代价来换取速度,无法保证得到最优解,并且在复杂系统中的表现不稳定。因此,如何在保证求解质量的前提下,提升PCM仿真的速度,是本文要解决的核心问题。

核心思路:论文的核心思路是利用中继学习(Relay Learning)的思想,结合模仿学习(IL)和强化学习(RL),构建一个稳定的优化策略。首先通过模仿学习快速学习专家策略,然后通过强化学习进行微调,从而在保证求解质量的同时,提升求解速度。这种两阶段的学习方式,既能利用模仿学习的快速收敛性,又能利用强化学习的优化能力,从而达到更好的效果。

技术框架:该方法的技术框架主要包含以下几个阶段: 1. 数据收集:通过运行现有的PCM求解器(如SCIP)收集专家策略数据。 2. 模仿学习阶段:利用收集到的专家数据,训练一个模仿学习模型,用于策略初始化。 3. 强化学习阶段:利用强化学习算法(如Q-learning或Policy Gradient),对模仿学习得到的策略进行微调,以进一步提升性能。 4. 集成到分支定界算法:将训练好的策略集成到分支定界算法中,用于指导搜索过程,加速求解。

关键创新:该方法最重要的技术创新点在于: 1. 稳定中继学习:通过模仿学习和强化学习的结合,保证了策略的稳定性和优化能力。 2. 针对PCM问题的定制化设计:针对PCM问题的特点,设计了合适的特征表示和奖励函数,从而提升了算法的性能。 3. 与分支定界算法的有效集成:将学习到的策略有效地集成到分支定界算法中,从而加速了求解过程。

关键设计:在模仿学习阶段,使用了监督学习方法,损失函数为交叉熵损失或均方误差损失。在强化学习阶段,使用了Q-learning或Policy Gradient等算法,奖励函数的设计需要考虑PCM问题的特点,例如,可以根据求解时间和求解质量来设计奖励函数。此外,特征表示的选择也非常重要,需要选择能够有效描述PCM问题状态的特征。

📊 实验亮点

实验结果表明,所提出的稳定中继学习优化方法在SCIP求解器上,能够以更快的速度找到最优解。具体来说,s-RLO返回最优解的速度比默认的relpscost规则快2倍,比IL快1.4倍。此外,该方法还表现出更稳定的性能,与IL相比,性能波动减少了约50%。这些结果表明,该方法在加速PCM仿真方面具有显著的优势。

🎯 应用场景

该研究成果可应用于电力系统规划、运行和调度等领域。通过加速生产成本最小化仿真,可以更快地评估不同规划方案的经济性和可靠性,优化机组组合和经济调度策略,从而降低电力系统的运行成本,提高能源利用效率,并为新型能源系统的快速评估提供支持。

📄 摘要(原文)

Production cost minimization (PCM) simulation is commonly employed for assessing the operational efficiency, economic viability, and reliability, providing valuable insights for power system planning and operations. However, solving a PCM problem is time-consuming, consisting of numerous binary variables for simulation horizon extending over months and years. This hinders rapid assessment of modern energy systems with diverse planning requirements. Existing methods for accelerating PCM tend to sacrifice accuracy for speed. In this paper, we propose a stable relay learning optimization (s-RLO) approach within the Branch and Bound (B&B) algorithm. The proposed approach offers rapid and stable performance, and ensures optimal solutions. The two-stage s-RLO involves an imitation learning (IL) phase for accurate policy initialization and a reinforcement learning (RL) phase for time-efficient fine-tuning. When implemented on the popular SCIP solver, s-RLO returns the optimal solution up to 2 times faster than the default relpscost rule and 1.4 times faster than IL, or exhibits a smaller gap at the predefined time limit. The proposed approach shows stable performance, reducing fluctuations by approximately 50% compared with IL. The efficacy of the proposed s-RLO approach is supported by numerical results.