EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

📄 arXiv: 2603.05553v1 📥 PDF

作者: Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin

分类: cs.SE, cs.AI, cs.CL

发布日期: 2026-03-05


💡 一句话要点

EigenData:一个自进化的多智能体平台,用于函数调用数据的合成、审计和修复。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 函数调用代理 多智能体系统 数据合成 数据审计 数据修复 自进化 结果感知评估

📋 核心要点

  1. 函数调用代理需要高质量的训练数据,但现有数据构建方法难以保证数据质量和一致性。
  2. EigenData平台通过多智能体协同,自动化数据合成、审计和修复,保证数据质量和一致性。
  3. 实验表明,使用EigenData修复后的基准,能更准确地评估模型的功能正确性,与人类判断更一致。

📝 摘要(中文)

本文介绍了一个名为EigenData的集成自进化平台,该平台通过多智能体架构自动完成函数调用代理的完整数据生命周期。函数调用代理是调用工具和API的大型语言模型,需要高质量、特定领域的训练数据,涵盖可执行环境、后备数据库和多样化的多轮对话轨迹。EigenData包含一个顶层协调器EigenCore,它协调三个专门的子系统:DatabaseAgent用于构建真实的领域数据库;CodingAgent用于生成具有迭代测试-调试循环的经过验证的可执行环境;DataAgent用于通过自进化提示优化进行多轮对话轨迹合成。跨组件反馈确保所有工件的一致性。EigenData被用于审计和修复Berkeley Function-Calling Leaderboard (BFCL-V3),识别函数模式、实现和参考轨迹中的系统性错误,并通过协调模式改进、代码级错误修复和轨迹修改自动纠正这些错误,并引入一种结果感知评估协议,该协议通过数据库状态的正确性而不是轮级轨迹匹配来评估任务成功率。实验表明,修复后的基准,加上结果感知指标,产生的模型排名与人类对功能正确性的判断具有更好的相关性。

🔬 方法详解

问题定义:函数调用代理(Function-calling agents)依赖于高质量、领域特定的训练数据,这些数据需要覆盖可执行环境、数据库以及多轮对话轨迹。现有方法在构建此类数据时,面临着数据质量难以保证、不同组件之间数据一致性难以维护等问题,导致模型训练效果不佳,评估结果不准确。

核心思路:EigenData的核心思路是利用多智能体系统自动化数据生成、审计和修复的整个流程。通过将复杂的任务分解为多个子任务,并分配给不同的智能体,实现高效且高质量的数据构建。同时,引入跨组件反馈机制,确保数据在不同阶段和组件之间的一致性。

技术框架:EigenData平台采用多智能体架构,包含一个顶层协调器EigenCore和三个专门的子系统:DatabaseAgent、CodingAgent和DataAgent。EigenCore负责协调各个子系统的工作,DatabaseAgent负责构建真实的领域数据库,CodingAgent负责生成经过验证的可执行环境,DataAgent负责合成多轮对话轨迹。各个子系统之间通过反馈机制进行信息交互,确保数据的一致性和质量。

关键创新:EigenData的关键创新在于其集成的、自进化的多智能体架构,能够自动化函数调用数据的整个生命周期。与传统的数据构建方法相比,EigenData能够更高效、更可靠地生成高质量、一致性的数据。此外,EigenData还引入了一种结果感知评估协议,能够更准确地评估模型的功能正确性。

关键设计:EigenData平台的设计包含以下关键技术细节:1) DatabaseAgent使用领域知识和数据生成技术,构建真实的数据库;2) CodingAgent采用迭代测试-调试循环,确保生成的可执行环境的正确性;3) DataAgent使用自进化提示优化技术,生成高质量的多轮对话轨迹;4) 跨组件反馈机制,确保数据在不同组件之间的一致性;5) 结果感知评估协议,通过数据库状态的正确性来评估任务成功率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EigenData被用于审计和修复Berkeley Function-Calling Leaderboard (BFCL-V3),识别并自动纠正了函数模式、实现和参考轨迹中的系统性错误。修复后的基准,加上结果感知指标,产生的模型排名与人类对功能正确性的判断具有更好的相关性,表明EigenData能够有效提高数据质量和评估准确性。

🎯 应用场景

EigenData平台可应用于各种需要函数调用代理的场景,例如智能助手、自动化客服、智能家居等。通过自动化数据构建和评估,可以降低开发成本,提高模型性能,并加速相关应用的落地。该平台还可用于评估和改进现有的函数调用数据集,提高数据集的质量和可靠性。

📄 摘要(原文)

Function-calling agents -- large language models that invoke tools and APIs -- require high-quality, domain-specific training data spanning executable environments, backing databases, and diverse multi-turn trajectories. We introduce EigenData, an integrated, self-evolving platform that automates the full data lifecycle through a multi-agent architecture. A top-level orchestrator, EigenCore, coordinates three specialized sub-systems: DatabaseAgent for realistic domain database construction, CodingAgent for verified executable environment generation with iterative test-debug loops, and DataAgent for multi-turn trajectory synthesis with self-evolving prompt optimization. Cross-component feedback ensures consistency across all artifacts. We apply EigenData to audit and repair the Berkeley Function-Calling Leaderboard (BFCL-V3), identifying systematic errors in function schemas, implementations, and reference trajectories, automatically correcting them through coordinated schema refinement, code-level bug fixes, and trajectory modification, and introducing an outcome-aware evaluation protocol that assesses task success via database-state correctness rather than turn-level trajectory matching. We demonstrate that the repaired benchmark, coupled with outcome-aware metrics, produces model rankings substantially better correlated with human judgments of functional correctness.