SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning
作者: Manav Vora, Gokul Puthumanaillam, Hiroyasu Tsukamoto, Melkior Ornik
分类: cs.MA, cs.AI
发布日期: 2026-03-05
💡 一句话要点
SCoUT:基于效用引导时序分组的多智能体强化学习可扩展通信方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 通信学习 信用分配 反事实推理 时序抽象
📋 核心要点
- 在多智能体强化学习中,通信能提升协作,但现有方法难以确定通信时机和对象,面临大量发送者-接收者对的选择。
- SCoUT通过时序和智能体抽象,在宏步上对智能体进行软分组,并利用组感知评论器降低复杂度和方差,从而实现高效通信。
- SCoUT通过反事实通信优势,精确评估每个发送者的贡献,从而优化发送决策和接收者选择,实现更有效的信用分配。
📝 摘要(中文)
本文提出了一种名为SCoUT(基于效用引导时序分组的可扩展通信)的方法,旨在改进部分可观测多智能体强化学习(MARL)中的通信协调。SCoUT通过在传统MARL中引入时间抽象和智能体抽象来解决通信中“何时”以及“与谁”通信的问题。在训练期间,SCoUT每隔K个环境步骤(宏步)通过Gumbel-Softmax重采样“软”智能体组;这些组是潜在的集群,产生一种亲和力,用作接收者的可微先验。使用相同的分配,一个组感知评论器预测每个智能体组的值,并通过相同的软分配将它们映射到每个智能体的基线,从而降低评论器的复杂性和方差。每个智能体都使用一个三头策略进行训练:环境动作、发送决策和接收者选择。为了获得精确的通信学习信号,我们通过分析地从接收者的聚合消息中移除每个发送者的贡献来推导反事实通信优势。这种反事实计算能够为发送和接收者选择决策提供精确的信用分配。在执行时,所有集中式训练组件都被丢弃,只运行每个智能体的策略,从而保持分散式执行。
🔬 方法详解
问题定义:在部分可观测的多智能体强化学习环境中,智能体间的有效通信对于实现良好的协作至关重要。然而,随着智能体数量的增加,通信的复杂性呈指数级增长,因为每个智能体都需要决定何时发送消息以及发送给哪些其他智能体。现有的方法通常难以有效地学习这种复杂的通信策略,尤其是在奖励信号稀疏的情况下,很难将通信行为与最终的奖励联系起来。
核心思路:SCoUT的核心思路是通过引入时序和智能体抽象来降低通信的复杂性。具体来说,SCoUT将时间划分为宏步,并在每个宏步内对智能体进行软分组。这种分组允许智能体在组级别上进行通信,而不是在个体级别上进行通信,从而减少了需要考虑的通信组合的数量。此外,SCoUT使用一个组感知的评论器来评估每个组的价值,并将这些价值映射到个体智能体的基线,从而降低了评论器的复杂性和方差。
技术框架:SCoUT的整体框架包括以下几个主要模块:1) 软分组模块:使用Gumbel-Softmax技巧对智能体进行软分组,生成潜在的集群。2) 组感知评论器:预测每个智能体组的价值,并将其映射到个体智能体的基线。3) 三头策略:每个智能体都使用一个三头策略进行训练,分别用于选择环境动作、发送决策和接收者选择。4) 反事实通信优势计算:通过分析地从接收者的聚合消息中移除每个发送者的贡献来推导反事实通信优势,从而实现精确的信用分配。
关键创新:SCoUT最重要的技术创新点在于其反事实通信优势的计算方法。通过这种方法,SCoUT能够精确地评估每个发送者对接收者的影响,从而为发送决策和接收者选择提供更准确的信用分配。这与现有方法中通常使用的基于梯度的信用分配方法不同,后者往往难以处理通信中的复杂依赖关系。
关键设计:SCoUT的关键设计包括:1) 使用Gumbel-Softmax进行软分组,允许智能体在不同的组之间进行平滑过渡。2) 使用组感知评论器来降低评论器的复杂性和方差。3) 使用三头策略来分别控制环境动作、发送决策和接收者选择。4) 使用反事实通信优势来精确评估每个发送者的贡献。宏步长度K是一个重要的超参数,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了SCoUT在多个多智能体协作任务上的有效性。实验结果表明,SCoUT能够显著提高智能体的协作能力,并在一些任务上取得了优于现有方法的性能。例如,在星际争霸II微操任务中,SCoUT的性能超过了基线方法,证明了其在复杂环境中的有效性。具体的性能提升幅度未知,需要参考论文原文。
🎯 应用场景
SCoUT具有广泛的应用前景,例如在交通控制、机器人协作、资源分配等领域。通过学习有效的通信策略,智能体可以更好地协调行动,从而提高整体性能。该方法尤其适用于智能体数量较多的复杂环境,能够有效降低通信的复杂性,提高学习效率。未来,SCoUT可以进一步扩展到更复杂的通信场景,例如支持多跳通信、异构智能体等。
📄 摘要(原文)
Communication can improve coordination in partially observed multi-agent reinforcement learning (MARL), but learning \emph{when} and \emph{who} to communicate with requires choosing among many possible sender-recipient pairs, and the effect of any single message on future reward is hard to isolate. We introduce \textbf{SCoUT} (\textbf{S}calable \textbf{Co}mmunication via \textbf{U}tility-guided \textbf{T}emporal grouping), which addresses both these challenges via temporal and agent abstraction within traditional MARL. During training, SCoUT resamples \textit{soft} agent groups every (K) environment steps (macro-steps) via Gumbel-Softmax; these groups are latent clusters that induce an affinity used as a differentiable prior over recipients. Using the same assignments, a group-aware critic predicts values for each agent group and maps them to per-agent baselines through the same soft assignments, reducing critic complexity and variance. Each agent is trained with a three-headed policy: environment action, send decision, and recipient selection. To obtain precise communication learning signals, we derive counterfactual communication advantages by analytically removing each sender's contribution from the recipient's aggregated messages. This counterfactual computation enables precise credit assignment for both send and recipient-selection decisions. At execution time, all centralized training components are discarded and only the per-agent policy is run, preserving decentralized execution. Project website, videos and code: \hyperlink{https://scout-comm.github.io/}{https://scout-comm.github.io/}