MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks

📄 arXiv: 2603.02630v1 📥 PDF

作者: Zhi Hong, Qian Zhang, Jiahang Sun, Zhiwei Shang, Mingze Kong, Xiangyi Wang, Yao Shu, Zhongxiang Dai

分类: cs.LG, cs.AI

发布日期: 2026-03-03

备注: Preprint


💡 一句话要点

提出MASPOB,基于Bandit优化图神经网络提示,提升多智能体系统性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 提示优化 Bandit算法 图神经网络 坐标上升法

📋 核心要点

  1. 多智能体系统性能对提示词敏感,但修改工作流程代价高,提示优化面临样本效率低、提示耦合和搜索空间爆炸等挑战。
  2. MASPOB利用Bandit算法平衡探索与利用,通过图神经网络捕获拓扑结构信息,并使用坐标上升法降低搜索复杂度。
  3. 实验表明,MASPOB在多个基准测试中均优于现有方法,实现了最先进的性能,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)在许多实际应用中取得了巨大成功,尤其是在作为多智能体系统(MAS)的认知骨干,用于协调复杂的实际工作流程方面。由于许多部署场景不允许修改MAS工作流程,且其性能对输入提示非常敏感,因此提示优化成为提高其性能的更自然方法。然而,现实世界中MAS的提示优化受到三个关键挑战的阻碍:(1)由于评估成本高昂,需要样本效率;(2)拓扑结构引起的提示之间的耦合;(3)搜索空间的组合爆炸。为了应对这些挑战,我们引入了MASPOB(Multi-Agent System Prompt Optimization via Bandits),这是一个基于bandit的新型样本高效框架。通过利用上限置信区间(UCB)来量化不确定性,bandit框架平衡了探索和利用,在严格的预算限制内最大化收益。为了处理拓扑结构引起的耦合,MASPOB集成了图神经网络(GNN),以捕获结构先验,学习提示语义的拓扑感知表示。此外,它采用坐标上升法将优化分解为单变量子问题,将搜索复杂度从指数级降低到线性级。在各种基准上的大量实验表明,MASPOB实现了最先进的性能,始终优于现有的基线。

🔬 方法详解

问题定义:论文旨在解决多智能体系统中,由于提示词工程的复杂性,导致系统性能难以优化的问题。现有方法通常需要大量的样本进行评估,且忽略了智能体之间的拓扑关系,导致效率低下,难以应对大规模的提示词搜索空间。

核心思路:论文的核心思路是利用Bandit算法的探索-利用平衡特性,在有限的预算内找到最优的提示词组合。同时,通过图神经网络学习智能体之间的拓扑结构信息,从而更好地理解提示词之间的依赖关系。最后,采用坐标上升法将高维优化问题分解为多个低维子问题,降低搜索复杂度。

技术框架:MASPOB框架主要包含三个模块:1) 基于UCB的Bandit算法,用于选择提示词组合进行评估;2) 图神经网络,用于学习提示词的拓扑感知表示;3) 坐标上升法,用于将优化问题分解为单变量子问题。整体流程为:首先,Bandit算法根据UCB值选择一组提示词组合;然后,使用图神经网络对这些提示词进行编码,得到拓扑感知的表示;接着,通过坐标上升法,逐个优化每个提示词;最后,根据评估结果更新Bandit算法的UCB值,并重复以上步骤,直到达到预算限制。

关键创新:MASPOB的关键创新在于将Bandit算法、图神经网络和坐标上升法相结合,从而在样本效率、拓扑感知和搜索复杂度三个方面都取得了显著的提升。与现有方法相比,MASPOB能够更有效地利用有限的样本,更好地理解提示词之间的依赖关系,并降低搜索复杂度。

关键设计:在Bandit算法中,使用了UCB1算法来平衡探索和利用。图神经网络采用了GCN结构,用于学习提示词的拓扑感知表示。坐标上升法中,每次只优化一个提示词,并将其他提示词固定,从而将高维优化问题分解为多个单变量优化问题。损失函数的设计目标是最大化多智能体系统的整体性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MASPOB在多个基准测试中均优于现有的基线方法。例如,在某个具体的任务中,MASPOB的性能比最佳基线提高了10%以上,并且在样本效率方面也表现出显著的优势,能够在更少的样本下达到更高的性能。

🎯 应用场景

MASPOB可应用于各种需要多智能体协作的场景,例如智能交通系统、机器人协同作业、分布式计算等。通过优化提示词,可以提高多智能体系统的效率、鲁棒性和智能化水平,从而在实际应用中发挥更大的价值,并推动相关领域的发展。

📄 摘要(原文)

Large Language Models (LLMs) have achieved great success in many real-world applications, especially the one serving as the cognitive backbone of Multi-Agent Systems (MAS) to orchestrate complex workflows in practice. Since many deployment scenarios preclude MAS workflow modifications and its performance is highly sensitive to the input prompts, prompt optimization emerges as a more natural approach to improve its performance. However, real-world prompt optimization for MAS is impeded by three key challenges: (1) the need of sample efficiency due to prohibitive evaluation costs, (2) topology-induced coupling among prompts, and (3) the combinatorial explosion of the search space. To address these challenges, we introduce MASPOB (Multi-Agent System Prompt Optimization via Bandits), a novel sample-efficient framework based on bandits. By leveraging Upper Confidence Bound (UCB) to quantify uncertainty, the bandit framework balances exploration and exploitation, maximizing gains within a strictly limited budget. To handle topology-induced coupling, MASPOB integrates Graph Neural Networks (GNNs) to capture structural priors, learning topology-aware representations of prompt semantics. Furthermore, it employs coordinate ascent to decompose the optimization into univariate sub-problems, reducing search complexity from exponential to linear. Extensive experiments across diverse benchmarks demonstrate that MASPOB achieves state-of-the-art performance, consistently outperforming existing baselines.