Investigating the Potential of Large Language Model-Based Router Multi-Agent Architectures for Foundation Design Automation: A Task Classification and Expert Selection Study

📄 arXiv: 2506.13811v1 📥 PDF

作者: Sompote Youwai, David Phim, Vianne Gayl Murcia, Rianne Clair Onas

分类: cs.MA, cs.AI, cs.CL

发布日期: 2025-06-13


💡 一句话要点

提出基于大语言模型的路由器多智能体架构以自动化基础设计计算

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基础设计 多智能体系统 任务分类 专家选择 自动化计算 土木工程 大语言模型

📋 核心要点

  1. 现有的基础设计方法在效率和准确性上存在不足,尤其是在复杂计算和任务分配方面。
  2. 论文提出了一种基于路由器的多智能体系统,通过智能任务分类和专家选择来优化基础设计计算过程。
  3. 实验结果显示,路由器配置在基础设计中的性能显著提升,超越了传统方法,验证了其有效性。

📝 摘要(中文)

本研究探讨了基于路由器的多智能体系统,通过智能任务分类和专家选择来自动化基础设计计算。评估了三种方法:单智能体处理、多智能体设计-检查架构和基于路由器的专家选择。性能评估使用了包括DeepSeek R1、ChatGPT 4 Turbo、Grok 3和Gemini 2.5 Pro的基线模型,结果显示路由器配置在浅基础和桩设计中分别达到了95.00%和90.63%的性能分数,较单独的Grok 3分别提高了8.75和3.13个百分点。该系统在性能上超越了传统的智能工作流程,提升幅度在10.0到43.75个百分点之间。Grok 3在没有外部计算工具的情况下表现出色,表明了在工程应用中直接大语言模型数学推理的进展。双层分类框架成功区分了基础类型,从而启用了适当的分析方法。结果表明,基于路由器的多智能体系统在基础设计自动化中是最优选择,同时保持了专业文档标准。

🔬 方法详解

问题定义:本研究旨在解决基础设计计算中效率低下和任务分配不合理的问题。现有方法在处理复杂设计时常常面临性能瓶颈和准确性不足的挑战。

核心思路:论文提出的核心思路是利用基于路由器的多智能体架构,通过智能任务分类和专家选择来实现基础设计的自动化。这种设计旨在提高计算效率和准确性,同时保持专业标准。

技术框架:整体架构包括三个主要模块:单智能体处理模块、多智能体设计-检查架构和基于路由器的专家选择模块。每个模块在设计计算中扮演不同的角色,协同工作以优化整体性能。

关键创新:最重要的技术创新点在于引入了基于路由器的专家选择机制,使得系统能够根据任务需求动态选择最合适的专家进行计算。这一机制与现有方法的静态任务分配方式形成鲜明对比。

关键设计:在参数设置上,系统采用了双层分类框架来区分基础类型,确保选择合适的分析方法。损失函数和网络结构的设计也经过精心调整,以适应工程应用中的复杂计算需求。

📊 实验亮点

实验结果显示,基于路由器的多智能体系统在浅基础设计中达到了95.00%的性能,桩设计中达到了90.63%的性能,分别比单独的Grok 3提高了8.75和3.13个百分点。此外,该系统在性能上超越了传统工作流程,提升幅度在10.0到43.75个百分点之间,显示出其显著的优势。

🎯 应用场景

该研究的潜在应用领域包括土木工程、建筑设计和基础设施建设等。通过自动化基础设计计算,能够显著提高设计效率和准确性,降低人力成本,提升工程安全性。未来,这种系统有望在专业实践中作为高级计算辅助工具得到广泛应用。

📄 摘要(原文)

This study investigates router-based multi-agent systems for automating foundation design calculations through intelligent task classification and expert selection. Three approaches were evaluated: single-agent processing, multi-agent designer-checker architecture, and router-based expert selection. Performance assessment utilized baseline models including DeepSeek R1, ChatGPT 4 Turbo, Grok 3, and Gemini 2.5 Pro across shallow foundation and pile design scenarios. The router-based configuration achieved performance scores of 95.00% for shallow foundations and 90.63% for pile design, representing improvements of 8.75 and 3.13 percentage points over standalone Grok 3 performance respectively. The system outperformed conventional agentic workflows by 10.0 to 43.75 percentage points. Grok 3 demonstrated superior standalone performance without external computational tools, indicating advances in direct LLM mathematical reasoning for engineering applications. The dual-tier classification framework successfully distinguished foundation types, enabling appropriate analytical approaches. Results establish router-based multi-agent systems as optimal for foundation design automation while maintaining professional documentation standards. Given safety-critical requirements in civil engineering, continued human oversight remains essential, positioning these systems as advanced computational assistance tools rather than autonomous design replacements in professional practice.