Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning

作者: Eric Hanchen Jiang, Levina Li, Rui Sun, Xiao Liang, Yubei Li, Yuchen Wu, Haozheng Luo, Hengli Li, Zhi Zhang, Zhaolu Kang, Kai-Wei Chang, Ying Nian Wu

分类: cs.CL, stat.AP

发布日期: 2026-04-01

💡 一句话要点

Agent Q-Mix：通过强化学习为LLM多智能体系统选择最优动作

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 强化学习 QMIX 拓扑优化 大型语言模型 分散式决策 集中式训练分散式执行

📋 核心要点

现有方法在多智能体系统中难以有效选择和连接智能体，导致解决复杂问题时效率低下。
Agent Q-Mix将智能体拓扑选择建模为MARL问题，利用QMIX学习分散通信决策，优化智能体间的连接。
实验表明，Agent Q-Mix在多个基准测试中取得了更高的准确率和token效率，并对智能体故障具有鲁棒性。

📝 摘要（中文）

大型语言模型（LLMs）在完成各种任务中表现出卓越的性能。然而，解决复杂问题通常需要多个智能体的协调，这就提出了一个根本问题：如何有效地选择和连接这些智能体。本文提出了Agent Q-Mix，一个强化学习框架，它将拓扑选择重新定义为一个合作多智能体强化学习（MARL）问题。我们的方法使用QMIX值分解学习分散的通信决策，其中每个智能体从一组通信动作中选择，这些动作共同诱导出一个回合制的通信图。Agent Q-Mix的核心是在集中式训练和分散式执行（CTDE）范式下，结合了拓扑感知的GNN编码器、GRU记忆和每个智能体的Q-head。该框架优化了一个奖励函数，该函数平衡了任务准确性和token成本。在编码、推理和数学方面的七个核心基准测试中，Agent Q-Mix实现了比现有方法更高的平均准确率，同时表现出卓越的token效率和对智能体故障的鲁棒性。值得注意的是，在使用Gemini-3.1-Flash-Lite作为骨干的具有挑战性的人类最后考试（HLE）中，Agent Q-Mix实现了20.8%的准确率，优于Microsoft Agent Framework（19.2%）和LangGraph（19.2%），其次是AutoGen和OpenClaw的Lobster。这些结果强调了学习到的分散拓扑优化在推动多智能体推理边界方面的有效性。

🔬 方法详解

问题定义：论文旨在解决如何有效选择和连接多个智能体，以提升大型语言模型在复杂问题解决中的性能。现有方法在智能体选择和连接方面存在不足，导致效率低下，难以充分发挥多智能体的协同优势。

核心思路：论文的核心思路是将智能体间的拓扑结构选择问题转化为一个合作多智能体强化学习（MARL）问题。通过学习分散的通信决策，每个智能体可以根据当前状态选择合适的通信动作，从而动态构建一个优化的通信拓扑。

技术框架：Agent Q-Mix采用集中式训练、分散式执行（CTDE）的框架。整体流程包括：1) 使用拓扑感知的GNN编码器提取智能体的状态特征；2) 利用GRU记忆模块捕捉智能体间的交互历史；3) 每个智能体拥有一个Q-head，用于评估不同通信动作的价值；4) 使用QMIX值分解方法，将每个智能体的Q值组合成联合Q值，指导智能体的策略学习。

关键创新：最重要的创新点在于将智能体拓扑选择问题建模为MARL问题，并使用QMIX进行分散式决策。这种方法允许智能体在运行时动态调整通信拓扑，从而更好地适应不同的任务和环境。与传统方法相比，Agent Q-Mix能够学习到更有效的智能体连接方式，提升整体性能。

关键设计：Agent Q-Mix的关键设计包括：1) 拓扑感知的GNN编码器，用于提取智能体的拓扑结构信息；2) 基于QMIX的值分解方法，用于实现分散式决策；3) 奖励函数的设计，平衡了任务准确性和token成本。此外，论文还探索了不同的网络结构和超参数设置，以优化Agent Q-Mix的性能。

🖼️ 关键图片

📊 实验亮点

Agent Q-Mix在七个核心基准测试中取得了比现有方法更高的平均准确率，同时表现出卓越的token效率和对智能体故障的鲁棒性。在具有挑战性的人类最后考试（HLE）中，Agent Q-Mix实现了20.8%的准确率，优于Microsoft Agent Framework（19.2%）和LangGraph（19.2%）。这些结果表明，Agent Q-Mix能够有效地学习智能体间的通信策略，提升多智能体系统的整体性能。

🎯 应用场景

Agent Q-Mix可应用于需要多智能体协作的各种场景，例如：软件开发、机器人协作、自动驾驶、金融交易等。通过优化智能体间的通信和协作方式，可以提升问题解决的效率和质量，降低计算成本，并增强系统的鲁棒性。该研究为构建更智能、更高效的多智能体系统提供了新的思路。

📄 摘要（原文）

Large Language Models (LLMs) have shown remarkable performance in completing various tasks. However, solving complex problems often requires the coordination of multiple agents, raising a fundamental question: how to effectively select and interconnect these agents. In this paper, we propose \textbf{Agent Q-Mix}, a reinforcement learning framework that reformulates topology selection as a cooperative Multi-Agent Reinforcement Learning (MARL) problem. Our method learns decentralized communication decisions using QMIX value factorization, where each agent selects from a set of communication actions that jointly induce a round-wise communication graph. At its core, Agent Q-Mix combines a topology-aware GNN encoder, GRU memory, and per-agent Q-heads under a Centralized Training with Decentralized Execution (CTDE) paradigm. The framework optimizes a reward function that balances task accuracy with token cost. Across seven core benchmarks in coding, reasoning, and mathematics, Agent Q-Mix achieves the highest average accuracy compared to existing methods while demonstrating superior token efficiency and robustness against agent failure. Notably, on the challenging Humanity's Last Exam (HLE) using Gemini-3.1-Flash-Lite as a backbone, Agent Q-Mix achieves 20.8\% accuracy, outperforming Microsoft Agent Framework (19.2\%) and LangGraph (19.2\%), followed by AutoGen and Lobster by OpenClaw. These results underscore the effectiveness of learned, decentralized topology optimization in pushing the boundaries of multi-agent reasoning.

Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理