Safe Decentralized Operation of EV Virtual Power Plant with Limited Network Visibility via Multi-Agent Reinforcement Learning
作者: Chenghao Huang, Jiarong Fan, Weiqing Wang, Hao Wang
分类: eess.SY, cs.AI, math.OC
发布日期: 2026-04-07
💡 一句话要点
提出安全增强的虚拟电厂框架以解决电动汽车充电站协调问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 虚拟电厂 电动汽车充电站 多智能体强化学习 电力分配网络 拉格朗日正则化 安全约束 去中心化决策
📋 核心要点
- 现有的虚拟电厂在协调电动汽车充电站时面临信息不完全的问题,导致电压安全性难以保障。
- 本文提出TL-MAPPO框架,通过集中训练和拉格朗日正则化来学习去中心化的充电策略,确保电压和需求满足。
- 实验结果显示,该框架在电压违规和运营成本方面分别减少约45%和10%,展现了其实际应用潜力。
📝 摘要(中文)
随着电力系统向净零目标发展,分布式能源资源(DERs)迅速增长,虚拟电厂(VPPs)在协调这些资源以支持电力分配网络(PDN)操作中发挥着越来越重要的作用。电动汽车充电站(EVCSs)因其对局部电压的强大影响而成为关键资产。然而,VPPs在实际操作中必须在仅有部分PDN状态可见的情况下做出决策,依赖于配电系统运营商共享的有限聚合信息。本文提出了一种安全增强的VPP框架,以在此类信息约束下协调多个EVCSs,确保电压安全并保持经济运行。我们开发了基于变换器的拉格朗日多智能体近端策略优化(TL-MAPPO),其中EVCS代理通过集中训练学习去中心化充电策略,并通过拉格朗日正则化来强制执行电压和需求满足约束。实验结果表明,该框架在一个现实的33节点PDN上将电压违规减少约45%,运营成本降低约10%。
🔬 方法详解
问题定义:本文旨在解决在部分可见的电力分配网络中,虚拟电厂如何有效协调电动汽车充电站的问题。现有方法在信息共享有限的情况下,难以保证电压安全和经济运行。
核心思路:论文提出的TL-MAPPO框架通过集中训练与去中心化策略相结合,利用拉格朗日正则化来确保电压和需求的满足,从而提升决策质量。
技术框架:该框架主要包括三个模块:变换器嵌入层用于捕捉时间相关性,拉格朗日正则化模块用于约束条件的强制执行,以及多智能体学习模块用于策略优化。
关键创新:最重要的创新在于引入变换器结构来增强信息处理能力,并结合拉格朗日正则化实现安全约束的有效执行,这在现有多智能体深度强化学习方法中尚属首次。
关键设计:在设计中,变换器嵌入层用于处理价格、负载和充电需求的时间相关性,损失函数中包含拉格朗日项以确保电压和需求的满足,网络结构采用多智能体架构以实现去中心化决策。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的TL-MAPPO框架在33节点电力分配网络上有效减少了约45%的电压违规事件,并将运营成本降低了约10%。与现有的多智能体深度强化学习基线相比,显示出显著的性能提升,证明了其在实际虚拟电厂部署中的潜力。
🎯 应用场景
该研究的潜在应用领域包括智能电网、可再生能源管理和电动汽车充电基础设施的优化。通过提高电动汽车充电站的协调效率,能够更好地支持电力分配网络的稳定性和经济性,推动可持续能源的发展。
📄 摘要(原文)
As power systems advance toward net-zero targets, behind-the-meter renewables are driving rapid growth in distributed energy resources (DERs). Virtual power plants (VPPs) increasingly coordinate these resources to support power distribution network (PDN) operation, with EV charging stations (EVCSs) emerging as a key asset due to their strong impact on local voltages. However, in practice, VPPs must make operational decisions with only partial visibility of PDN states, relying on limited, aggregated information shared by the distribution system operator. This work proposes a safety-enhanced VPP framework for coordinating multiple EVCSs under such realistic information constraints to ensure voltage security while maintaining economic operation. We develop Transformer-assisted Lagrangian Multi-Agent Proximal Policy Optimization (TL-MAPPO), in which EVCS agents learn decentralized charging policies via centralized training with Lagrangian regularization to enforce voltage and demand-satisfaction constraints. A transformer-based embedding layer deployed on each EVCS agent captures temporal correlations among prices, loads, and charging demand to improve decision quality. Experiments on a realistic 33-bus PDN show that the proposed framework reduces voltage violations by approximately 45% and operational costs by approximately 10% compared to representative multi-agent DRL baselines, highlighting its potential for practical VPP deployment.