Communication-aware Wide-Area Damping Control using Risk-Constrained Reinforcement Learning

📄 arXiv: 2509.23620v1 📥 PDF

作者: Kyung-bin Kwon, Lintao Ye, Vijay Gupta, Hao Zhu

分类: eess.SY, cs.LG

发布日期: 2025-09-28

备注: 12 pages, 14 figures, Accepted for publication in IEEE Transactions on Smart Grid, 2025


💡 一句话要点

提出基于风险约束强化学习的通信感知广域阻尼控制方法,提升电力系统稳定性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 广域阻尼控制 风险约束 强化学习 电力系统稳定 通信延迟 电压源换流器 网络安全 随机梯度下降

📋 核心要点

  1. 传统广域阻尼控制对通信延迟估计精度要求高,且难以应对链路故障等网络安全问题。
  2. 提出基于风险约束的强化学习框架,通过均值-方差风险约束减轻不确定性,提升系统鲁棒性。
  3. 实验表明,该方法在IEEE 68总线系统上优于传统延迟补偿方法,并能有效抑制最坏情况下的振荡。

📝 摘要(中文)

本文提出了一种新的风险约束框架,用于解决广域阻尼控制(WADC)中非理想通信链路(特别是延迟)带来的问题。传统方法依赖于延迟估计和补偿,但对快速WADC的精度要求极高,且无法处理链路故障或网络扰动等其他网络安全问题。该框架针对通信延迟,同时适用于网络物理耦合下的通用不确定性。WADC模型包含同步发电机(SG)和电压源换流器(VSC),以增强阻尼能力。通过在经典线性二次调节器(LQR)的最优控制成本中引入均值-方差风险约束来减轻不确定性。开发了一种基于强化学习(RL)的算法,即具有最大预言机的随机梯度下降(SGDmax),以解决风险约束问题。证明了即使使用简单的零阶策略梯度(ZOPG),该算法也能以高概率保证收敛到平稳状态。在IEEE 68总线系统上的数值测试验证了SGDmax的收敛性和VSC的阻尼能力,并表明该方法在估计误差下优于传统的基于延迟补偿器的方法。该风险约束设计在改善大延迟下的性能的同时,也能有效减轻最坏情况下的振荡,使其同样适用于解决其他通信问题和网络扰动。

🔬 方法详解

问题定义:论文旨在解决电力系统广域阻尼控制(WADC)中,由于通信网络引入的延迟和不确定性,导致系统稳定性和控制性能下降的问题。传统方法依赖于精确的延迟估计和补偿,但实际应用中难以保证估计精度,且对网络攻击等安全问题缺乏有效应对手段。现有方法的痛点在于对通信质量的过度依赖和对不确定性的处理能力不足。

核心思路:论文的核心思路是将WADC问题建模为一个风险约束的优化问题,通过在传统LQR控制器的基础上引入均值-方差风险约束,来降低控制策略对通信延迟和不确定性的敏感性。这种方法不依赖于精确的延迟估计,而是通过优化最坏情况下的性能来提高系统的鲁棒性。同时,利用强化学习算法来求解该风险约束优化问题。

技术框架:整体框架包括以下几个主要模块:1) 电力系统模型,包含同步发电机(SG)和电压源换流器(VSC);2) 基于LQR的控制目标,旨在实现最优的阻尼效果;3) 均值-方差风险约束,用于限制控制策略的风险水平;4) 基于强化学习的优化算法(SGDmax),用于求解风险约束下的最优控制策略。算法流程为:首先,初始化控制策略;然后,通过与电力系统环境交互,收集状态和奖励数据;接着,利用SGDmax算法更新控制策略;最后,重复上述步骤,直到控制策略收敛。

关键创新:论文的关键创新在于:1) 提出了基于风险约束的WADC框架,能够有效应对通信延迟和不确定性;2) 开发了一种基于强化学习的算法(SGDmax),用于求解风险约束优化问题,并证明了其收敛性;3) 将VSC纳入WADC模型,增强了系统的阻尼能力。与现有方法的本质区别在于,该方法不依赖于精确的延迟估计,而是通过优化最坏情况下的性能来提高系统的鲁棒性。

关键设计:关键设计包括:1) 均值-方差风险约束的参数设置,需要根据实际系统的风险偏好进行调整;2) SGDmax算法的学习率和探索率等超参数的设置,需要通过实验进行优化;3) VSC的控制策略设计,需要考虑其对系统稳定性的影响;4) 奖励函数的设计,需要能够反映系统的阻尼效果和风险水平。

📊 实验亮点

在IEEE 68总线系统上的数值实验表明,所提出的SGDmax算法能够有效收敛,并且VSC能够显著增强系统的阻尼能力。与传统的基于延迟补偿器的方法相比,该方法在存在估计误差的情况下表现出更好的性能。具体而言,该方法能够有效减轻最坏情况下的振荡,从而提高系统的鲁棒性。

🎯 应用场景

该研究成果可应用于智能电网的广域阻尼控制,提高电力系统在存在通信延迟和网络攻击等不确定因素下的稳定性和可靠性。通过优化VSC的控制策略,可以增强系统的阻尼能力,减少电力系统振荡的发生。该方法还可推广到其他网络化控制系统,如机器人集群控制和交通网络控制等领域,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Non-ideal communication links, especially delays, critically affect fast networked controls in power systems, such as the wide-area damping control (WADC). Traditionally, a delay estimation and compensation approach is adopted to address this cyber-physical coupling, but it demands very high accuracy for the fast WADC and cannot handle other cyber concerns like link failures or {cyber perturbations}. Hence, we propose a new risk-constrained framework that can target the communication delays, yet amenable to general uncertainty under the cyber-physical couplings. Our WADC model includes the synchronous generators (SGs), and also voltage source converters (VSCs) for additional damping capabilities. To mitigate uncertainty, a mean-variance risk constraint is introduced to the classical optimal control cost of the linear quadratic regulator (LQR). Unlike estimating delays, our approach can effectively mitigate large communication delays by improving the worst-case performance. A reinforcement learning (RL)-based algorithm, namely, stochastic gradient-descent with max-oracle (SGDmax), is developed to solve the risk-constrained problem. We further show its guaranteed convergence to stationarity at a high probability, even using the simple zero-order policy gradient (ZOPG). Numerical tests on the IEEE 68-bus system not only verify SGDmax's convergence and VSCs' damping capabilities, but also demonstrate that our approach outperforms conventional delay compensator-based methods under estimation error. While focusing on performance improvement under large delays, our proposed risk-constrained design can effectively mitigate the worst-case oscillations, making it equally effective for addressing other communication issues and cyber perturbations.