Beyond the Strongest LLM: Multi-Turn Multi-Agent Orchestration vs. Single LLMs on Benchmarks

作者: Aaron Xuxiang Tian, Ruofan Zhang, Jiayao Tang, Young Min Cho, Xueqian Li, Qiang Yi, Ji Wang, Zhunping Zhang, Danrui Qi, Zekun Li, Xingyu Xiang, Sharath Chandra Guntuku, Lyle Ungar, Tianyu Shi, Chi Wang

分类: cs.AI

发布日期: 2025-09-28 (更新: 2025-10-01)

备注: 9 pages, 3 tables, 1 figure

💡 一句话要点

多智能体协同超越最强LLM：多轮交互在基准测试中优于单一大模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 协同推理 共识机制 基准测试

📋 核心要点

现有大型语言模型在复杂推理任务中存在局限性，难以充分利用模型自身能力。
论文提出多智能体协同框架，通过多轮交互和投票机制，提升问题解决能力。
实验结果表明，该协同框架在多个基准测试中超越了最强的单一大模型。

📝 摘要（中文）

本文研究了多轮多智能体协同，其中多个大型语言模型（LLM）智能体通过迭代提出答案或投票进行多轮交互，直到达成共识。作者使用四个LLM（Gemini 2.5 Pro、GPT-5、Grok 4 和 Claude Sonnet 4）在 GPQA-Diamond、IFEval 和 MuSR 上进行了两项实验：（i）将协同与单LLM基线进行基准测试；（ii）在 GPQA-Diamond 上进行消融研究，改变智能体是否能看到答案的作者以及是否能观察到正在进行的投票。协同匹配或超过了最强的单一模型，并且始终优于其他模型。对最佳可实现协同性能的分析表明，存在进一步提升的潜力。消融研究表明，揭示作者身份会增加自我投票和并列，而显示正在进行的投票会放大羊群效应，这会加速收敛，但有时会导致过早达成共识。

🔬 方法详解

问题定义：现有的大型语言模型在处理复杂问题时，往往受限于自身的知识和推理能力，难以达到最优性能。单一大模型容易出现幻觉、偏见等问题，且难以有效利用多个模型的优势。因此，如何有效地整合多个LLM的能力，提升问题解决的准确性和鲁棒性是一个重要的研究问题。

核心思路：论文的核心思路是利用多智能体协同机制，通过让多个LLM智能体进行多轮交互，共同解决问题。每个智能体独立生成答案或进行投票，并通过迭代过程逐步达成共识。这种方法可以有效利用不同模型的优势，减少单一模型的局限性，并提高问题解决的可靠性。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 初始化：为每个LLM创建一个智能体；2) 答案生成：每个智能体独立生成答案；3) 投票：每个智能体对所有答案进行投票；4) 共识达成：根据投票结果，判断是否达成共识；5) 迭代：如果未达成共识，则重复答案生成和投票过程，直到达成共识或达到最大迭代次数。在消融实验中，作者还研究了智能体是否能看到答案的作者以及是否能观察到正在进行的投票对结果的影响。

关键创新：该研究的关键创新在于提出了多轮多智能体协同框架，并将其应用于解决复杂问题。与传统的单一大模型方法相比，该框架能够有效利用多个模型的优势，提高问题解决的准确性和鲁棒性。此外，该研究还通过消融实验，深入分析了不同因素对协同效果的影响，为进一步优化协同策略提供了指导。

关键设计：在实验中，作者使用了Gemini 2.5 Pro、GPT-5、Grok 4 和 Claude Sonnet 4 四个LLM作为智能体。投票机制采用简单的多数投票规则。迭代次数设置为一个上限，以防止无限循环。消融实验中，作者控制了智能体是否能看到答案的作者以及是否能观察到正在进行的投票，以研究这些因素对协同效果的影响。

📊 实验亮点

实验结果表明，多智能体协同框架在 GPQA-Diamond、IFEval 和 MuSR 三个基准测试中，匹配或超过了最强的单一模型，并且始终优于其他模型。消融实验表明，揭示作者身份会增加自我投票和并列，而显示正在进行的投票会放大羊群效应，这会加速收敛，但有时会导致过早达成共识。最佳可实现协同性能的分析表明，存在进一步提升的潜力。

🎯 应用场景

该研究成果可应用于需要高准确性和可靠性的复杂问题解决场景，例如医疗诊断、金融风险评估、法律咨询等。通过多智能体协同，可以有效减少单一模型的错误，提高决策的准确性和鲁棒性。未来，该方法有望应用于更广泛的领域，并与其他技术（如知识图谱、强化学习）相结合，进一步提升问题解决能力。

📄 摘要（原文）

We study multi-turn multi-agent orchestration, where multiple large language model (LLM) agents interact over multiple turns by iteratively proposing answers or casting votes until reaching consensus. Using four LLMs (Gemini 2.5 Pro, GPT-5, Grok 4, and Claude Sonnet 4) on GPQA-Diamond, IFEval, and MuSR, we conduct two experiments: (i) benchmarking orchestration against single-LLM baselines; and (ii) ablations on GPQA-Diamond that vary whether agents see who authored answers and whether they can observe ongoing votes. Orchestration matches or exceeds the strongest single model and consistently outperforms the others. Analysis of best-achievable orchestration performance shows potential for further gains. The ablations show that revealing authorship increases self-voting and ties, and that showing ongoing votes amplifies herding, which speeds convergence but can sometimes yield premature consensus.

Beyond the Strongest LLM: Multi-Turn Multi-Agent Orchestration vs. Single LLMs on Benchmarks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册