AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise

📄 arXiv: 2509.10769v1 📥 PDF

作者: Tara Bogavelli, Roshnee Sharma, Hari Subramani

分类: cs.AI, cs.CL, cs.MA

发布日期: 2025-09-13


💡 一句话要点

AgentArch:企业级Agent架构综合评测基准,揭示模型特定架构偏好

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agent架构 评测基准 大型语言模型 企业应用 多Agent系统

📋 核心要点

  1. 现有Agent架构研究缺乏对多Agent系统中不同设计维度交互作用的深入理解。
  2. AgentArch基准测试通过评估不同Agent配置在企业任务中的表现,揭示模型特定的架构偏好。
  3. 实验结果表明,现有Agent在企业任务中存在显著弱点,最高得分模型成功率仅为35.3%-70.8%。

📝 摘要(中文)

尽管Agent架构的各个组成部分已被单独研究,但对于复杂多Agent系统中不同设计维度如何相互作用的经验理解仍然有限。本研究旨在通过提供一个全面的企业特定基准来弥补这些差距,该基准评估了最先进的大型语言模型的18种不同的Agent配置。我们研究了四个关键的Agent系统维度:编排策略、Agent提示实现(ReAct与函数调用)、记忆架构和思维工具集成。我们的基准测试揭示了显著的模型特定架构偏好,这挑战了Agent AI系统中普遍存在的“一刀切”模式。它还揭示了Agent在企业任务上的整体性能的显著弱点,得分最高的模型在更复杂的任务上最多只能达到35.3%的成功率,在更简单的任务上达到70.8%。我们希望这些发现能够通过支持更多基于经验的关于架构组件和模型选择的决策,从而为未来Agent系统的设计提供信息。

🔬 方法详解

问题定义:现有Agent架构研究通常孤立地研究各个组件,缺乏对不同设计维度(如编排策略、提示工程、记忆架构、工具集成)在复杂多Agent系统中相互作用的全面理解。这导致在实际应用中难以选择合适的Agent架构,并且可能导致性能不佳。现有方法缺乏一个统一的、企业级的评测基准,难以客观评估不同Agent架构的优劣。

核心思路:AgentArch的核心思路是构建一个全面的、企业特定的评测基准,用于评估不同Agent架构在实际企业任务中的性能。通过系统性地测试不同Agent配置,揭示模型特定的架构偏好,从而打破“一刀切”的模式,并为Agent架构设计提供经验指导。

技术框架:AgentArch评测基准包含以下主要模块:1) 定义企业级任务:选择具有代表性的企业任务,例如信息检索、决策支持等。2) 构建Agent配置:组合不同的Agent设计维度,包括编排策略(如顺序执行、并行执行)、提示实现(ReAct、函数调用)、记忆架构(短期记忆、长期记忆)和思维工具集成(搜索引擎、数据库查询)。3) 评估指标:定义客观的评估指标,例如任务完成率、准确率、效率等。4) 基准测试:在不同的Agent配置上运行企业任务,并记录评估指标。5) 结果分析:分析实验结果,揭示模型特定的架构偏好,并识别Agent架构的瓶颈。

关键创新:AgentArch的关键创新在于:1) 提出了一个全面的企业级Agent架构评测基准,弥补了现有研究的不足。2) 系统性地研究了不同Agent设计维度之间的相互作用,揭示了模型特定的架构偏好。3) 强调了在实际企业任务中评估Agent架构的重要性,从而更好地指导Agent架构设计。

关键设计:AgentArch的关键设计包括:1) 选择了具有代表性的企业任务,以确保评测结果的实用性。2) 组合了不同的Agent设计维度,以全面评估Agent架构的性能。3) 定义了客观的评估指标,以确保评测结果的可靠性。4) 采用了最先进的大型语言模型,以确保评测结果的先进性。

📊 实验亮点

AgentArch基准测试揭示了显著的模型特定架构偏好,挑战了Agent AI系统中普遍存在的“一刀切”模式。实验结果表明,得分最高的模型在更复杂的任务上最多只能达到35.3%的成功率,在更简单的任务上达到70.8%。这表明现有Agent在企业任务上的整体性能仍然存在显著弱点,需要进一步改进。

🎯 应用场景

AgentArch的研究成果可应用于企业自动化、智能客服、知识管理等领域。通过选择合适的Agent架构,可以显著提升企业运营效率,降低成本,并改善用户体验。该研究为Agent架构设计提供了经验指导,有助于开发更智能、更高效的Agent系统,从而推动人工智能在企业中的广泛应用。

📄 摘要(原文)

While individual components of agentic architectures have been studied in isolation, there remains limited empirical understanding of how different design dimensions interact within complex multi-agent systems. This study aims to address these gaps by providing a comprehensive enterprise-specific benchmark evaluating 18 distinct agentic configurations across state-of-the-art large language models. We examine four critical agentic system dimensions: orchestration strategy, agent prompt implementation (ReAct versus function calling), memory architecture, and thinking tool integration. Our benchmark reveals significant model-specific architectural preferences that challenge the prevalent one-size-fits-all paradigm in agentic AI systems. It also reveals significant weaknesses in overall agentic performance on enterprise tasks with the highest scoring models achieving a maximum of only 35.3\% success on the more complex task and 70.8\% on the simpler task. We hope these findings inform the design of future agentic systems by enabling more empirically backed decisions regarding architectural components and model selection.