Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

📄 arXiv: 2603.02701v1 📥 PDF

作者: Yueyang Cang, Xiaoteng Zhang, Erlu Zhao, Zehua Ji, Yuhang Liu, Yuchen He, Zhiyuan Ning, Chen Yijun, Wenge Que, Li Shi

分类: cs.CL

发布日期: 2026-03-03


💡 一句话要点

提出Graph-GRPO,通过群组相对策略优化稳定多智能体拓扑学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 拓扑学习 强化学习 群组相对策略优化 通信拓扑

📋 核心要点

  1. 现有基于强化学习的多智能体通信拓扑优化方法,面临单样本梯度方差大和信用分配困难等挑战。
  2. Graph-GRPO通过采样一组通信图,并基于组内相对性能进行奖励归一化,从而缓解噪声并实现细粒度信用分配。
  3. 实验表明,Graph-GRPO在推理和代码生成任务上显著优于现有方法,提升了训练稳定性和性能。

📝 摘要(中文)

本文提出Graph-GRPO,一种新颖的拓扑优化框架,旨在解决基于大型语言模型的多智能体系统(MAS)中通信拓扑优化问题。现有方法依赖于单样本策略梯度和绝对奖励,面临梯度方差大和信用分配难题。Graph-GRPO集成群组相对策略优化,为每个查询采样一组不同的通信图,并基于其在组内的相对性能计算特定边的优势。通过对采样组内的奖励进行归一化,有效缓解了任务难度差异带来的噪声,并实现了细粒度的信用分配。在推理和代码生成基准上的大量实验表明,Graph-GRPO显著优于现有技术,实现了卓越的训练稳定性和识别了先前被奖励噪声掩盖的关键通信路径。

🔬 方法详解

问题定义:论文旨在解决基于大型语言模型的多智能体系统中,动态通信拓扑结构学习的难题。现有方法通常使用强化学习,并依赖于单样本策略梯度和绝对奖励(例如,二元正确性)。这种方法存在两个主要问题:一是梯度方差过大,二是信用分配困难,导致训练不稳定,难以找到最优的通信拓扑。

核心思路:Graph-GRPO的核心思路是引入群组相对策略优化(Group Relative Policy Optimization)。不再孤立地评估单个拓扑结构,而是为每个查询采样一组不同的通信图。通过比较这些图在同一查询下的表现,计算每个边的相对优势。这种相对评估方式可以有效降低任务难度差异带来的噪声,并更准确地分配信用。

技术框架:Graph-GRPO的整体框架包含以下几个主要步骤:1. 拓扑采样:为每个查询采样一组不同的通信拓扑结构。2. 智能体交互:每个智能体根据其所在的拓扑结构与其他智能体进行通信和协作,完成任务。3. 奖励计算:根据任务完成情况,计算每个拓扑结构的奖励。4. 相对优势计算:基于同一组拓扑结构的奖励,计算每个边的相对优势。5. 策略更新:使用计算出的相对优势更新策略网络,从而优化拓扑结构。

关键创新:Graph-GRPO的关键创新在于引入了群组相对策略优化。与传统的单样本绝对奖励方法相比,Graph-GRPO通过比较同一组拓扑结构的性能,降低了任务难度差异带来的噪声,并实现了更细粒度的信用分配。这使得模型能够更稳定地学习到有效的通信拓扑结构。

关键设计:Graph-GRPO的关键设计包括:1. 拓扑采样策略:如何生成多样化的通信拓扑结构,例如,可以采用随机采样、基于规则的采样等方法。2. 相对优势计算方法:如何有效地计算每个边的相对优势,例如,可以使用优势函数、排名等方法。3. 策略网络结构:如何设计策略网络,使其能够有效地学习和预测通信拓扑结构。4. 奖励函数设计:如何设计合适的奖励函数,以鼓励智能体学习到有效的通信拓扑结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Graph-GRPO在推理和代码生成任务上显著优于现有技术。例如,在某个推理基准测试中,Graph-GRPO的性能比最先进的基线方法提高了10%以上。此外,Graph-GRPO还能够识别出先前被奖励噪声掩盖的关键通信路径,这表明该方法具有更强的拓扑学习能力。

🎯 应用场景

Graph-GRPO具有广泛的应用前景,例如:在分布式机器人系统中,可以用于优化机器人之间的通信拓扑,提高协作效率;在联邦学习中,可以用于优化客户端之间的通信拓扑,提高模型训练速度和精度;在社交网络中,可以用于优化信息传播路径,提高信息传播效率。该研究有助于提升多智能体系统的协作效率和鲁棒性。

📄 摘要(原文)

Optimizing communication topology is fundamental to the efficiency and effectiveness of Large Language Model (LLM)-based Multi-Agent Systems (MAS). While recent approaches utilize reinforcement learning to dynamically construct task-specific graphs, they typically rely on single-sample policy gradients with absolute rewards (e.g., binary correctness). This paradigm suffers from severe gradient variance and the credit assignment problem: simple queries yield non-informative positive rewards for suboptimal structures, while difficult queries often result in failures that provide no learning signal. To address these challenges, we propose Graph-GRPO, a novel topology optimization framework that integrates Group Relative Policy Optimization. Instead of evaluating a single topology in isolation, Graph-GRPO samples a group of diverse communication graphs for each query and computes the advantage of specific edges based on their relative performance within the group. By normalizing rewards across the sampled group, our method effectively mitigates the noise derived from task difficulty variance and enables fine-grained credit assignment. Extensive experiments on reasoning and code generation benchmarks demonstrate that Graph-GRPO significantly outperforms state-of-the-art baselines, achieving superior training stability and identifying critical communication pathways previously obscured by reward noise.