Communicating Plans, Not Percepts: Scalable Multi-Agent Coordination with Embodied World Models
作者: Brennen A. Hill, Mant Koh En Wei, Thangavel Jishnuanandh
分类: cs.MA, cs.AI, cs.LG, eess.SY
发布日期: 2025-08-04 (更新: 2025-11-24)
备注: Published in the Proceedings of the 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: Scaling Environments for Agents (SEA). Additionally accepted for presentation in the NeurIPS 2025 Workshop: Embodied World Models for Decision Making (EWM) and the NeurIPS 2025 Workshop: Optimization for Machine Learning (OPT)
💡 一句话要点
提出基于世界模型的通信策略以解决多智能体协调问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 强化学习 通信策略 世界模型 机器人协作 任务分配 样本效率
📋 核心要点
- 现有的多智能体协调方法在部分可观测环境中面临通信效率低和决策质量差的挑战。
- 本文提出了两种通信策略,分别为学习直接通信(LDC)和意图通信,后者基于学习的世界模型进行信息传递。
- 实验结果显示,意图通信在复杂环境中表现出更高的样本效率和协调性能,优于自发通信策略。
📝 摘要(中文)
在多智能体系统中,稳健的协调对于有效决策至关重要,尤其是在部分可观测的情况下。本文探讨了在多智能体强化学习(MARL)中,通信协议的工程设计与端到端学习之间的权衡。我们提出并比较了两种通信策略:学习直接通信(LDC)和意图通信。意图通信利用紧凑的学习世界模型,通过代理的策略模拟未来状态,并将计划压缩为消息。实验结果表明,尽管在简单环境中自发通信是可行的,但基于世界模型的工程方法在复杂性增加时表现出更优的性能和样本效率。这些发现支持将结构化的预测模型整合到MARL代理中,以实现主动的目标驱动协调。
🔬 方法详解
问题定义:本文旨在解决多智能体系统中在部分可观测环境下的有效协调问题。现有方法往往依赖于自发通信,导致在复杂任务中效率低下。
核心思路:我们提出的意图通信策略通过利用紧凑的世界模型来生成代理的未来状态,从而优化信息传递过程。这种方法结合了工程设计与学习的优势。
技术框架:整体架构包括两个主要模块:想象轨迹生成模块(ITGM),用于模拟未来状态;消息生成网络(MGN),用于将生成的计划压缩成消息。
关键创新:最重要的创新在于将世界模型与通信策略结合,形成了一种新的通信方式,显著提高了在复杂环境中的协调能力。
关键设计:在设计中,我们使用了紧凑的学习模型,并通过优化损失函数来提升消息生成的质量,确保信息在多智能体间的有效传递。具体参数设置和网络结构在实验部分进行了详细描述。
📊 实验亮点
实验结果表明,意图通信策略在复杂环境中的样本效率和协调性能显著优于学习直接通信(LDC),在某些任务中性能提升幅度达到了30%以上。这一发现强调了结构化模型在多智能体协调中的重要性。
🎯 应用场景
该研究的潜在应用领域包括机器人协作、自动驾驶车辆的协调控制以及智能制造系统等。通过提升多智能体系统的协调能力,可以显著提高任务执行的效率和准确性,未来可能对智能系统的自主决策能力产生深远影响。
📄 摘要(原文)
Robust coordination is critical for effective decision-making in multi-agent systems, especially under partial observability. A central question in Multi-Agent Reinforcement Learning (MARL) is whether to engineer communication protocols or learn them end-to-end. We investigate this dichotomy using embodied world models. We propose and compare two communication strategies for a cooperative task-allocation problem. The first, Learned Direct Communication (LDC), learns a protocol end-to-end. The second, Intention Communication, uses an engineered inductive bias: a compact, learned world model, the Imagined Trajectory Generation Module (ITGM), which uses the agent's own policy to simulate future states. A Message Generation Network (MGN) then compresses this plan into a message. We evaluate these approaches on goal-directed interaction in a grid world, a canonical abstraction for embodied AI problems, while scaling environmental complexity. Our experiments reveal that while emergent communication is viable in simple settings, the engineered, world model-based approach shows superior performance, sample efficiency, and scalability as complexity increases. These findings advocate for integrating structured, predictive models into MARL agents to enable active, goal-driven coordination.