EvoSkill: Automated Skill Discovery for Multi-Agent Systems

📄 arXiv: 2603.02766v1 📥 PDF

作者: Salaheddin Alzubi, Noah Provenzano, Jaydon Bingham, Weiyuan Chen, Tu Vu

分类: cs.AI, cs.MA

发布日期: 2026-03-03


💡 一句话要点

提出EvoSkill以自动发现多智能体系统中的技能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动化技能发现 多智能体系统 自我进化 技能优化 零-shot迁移

📋 核心要点

  1. 现有方法主要依赖手工制作的技能,缺乏自动化和灵活性,难以适应多样化的任务需求。
  2. EvoSkill通过自我进化的方式,利用迭代失败分析自动发现和优化代理技能,提升了技能的可重用性和适应性。
  3. 在两个基准测试中,EvoSkill显著提高了代理的准确性,展示了其在不同任务间的技能迁移能力。

📝 摘要(中文)

随着编码代理作为通用问题解决者的使用日益增加,单靠其灵活性无法满足特定任务所需的领域专业知识。为此,本文提出了EvoSkill,一个自我进化框架,通过迭代失败分析自动发现和优化代理技能。EvoSkill分析执行失败,提出新技能或对现有技能的修改,并将其转化为结构化的可重用技能文件夹。通过在OfficeQA和SealQA两个基准上的评估,EvoSkill分别提高了7.3%和12.1%的准确率,展示了技能优化的可转移性,尤其是在不同任务之间的零-shot迁移能力。

🔬 方法详解

问题定义:本文旨在解决当前多智能体系统中技能发现的低效性和手工制作的局限性。现有方法往往依赖于特定模型和任务的低级工件,缺乏通用性和自动化。

核心思路:EvoSkill通过分析执行失败,自动提出新技能或对现有技能进行修改,从而实现技能的自我进化。该方法旨在提高技能的可重用性和适应性,适应多样化的任务需求。

技术框架:EvoSkill的整体架构包括失败分析模块、技能生成模块和技能评估模块。首先,系统分析执行失败,识别改进点;然后,生成新的技能或修改现有技能;最后,通过Pareto前沿选择保留性能提升的技能。

关键创新:EvoSkill的主要创新在于其自我进化能力,通过迭代分析和生成技能,克服了传统方法的手工制作限制,实现了技能的自动发现和优化。

关键设计:EvoSkill采用了结构化的技能文件夹,确保生成的技能可重用。同时,系统在选择技能时使用了Pareto前沿策略,仅保留那些在验证集上表现优异的技能,确保模型的稳定性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在OfficeQA基准测试中,EvoSkill将准确率从60.6%提升至67.9%,提高了7.3%;在SealQA测试中,准确率从26.6%提升至38.7%,提升幅度达到12.1%。此外,EvoSkill展示了技能在不同任务间的零-shot迁移能力,进一步验证了其有效性。

🎯 应用场景

EvoSkill的研究成果在多智能体系统的应用中具有广泛的潜力,尤其是在需要快速适应新任务的场景中,如智能客服、自动化办公和复杂决策支持系统。其自动化技能发现的能力将大幅提升系统的灵活性和效率,推动智能代理技术的发展。

📄 摘要(原文)

Coding agents are increasingly used as general-purpose problem solvers, but their flexibility does not by itself confer the domain expertise needed for specialized tasks. Recent work addresses this through \textit{agent skills}: reusable workflows, and code, that augment agents with domain-specific capabilities. Most skills today are hand-crafted, and existing evolutionary approaches optimize low-level artifacts (e.g. prompts \& code) that are tightly coupled to specific models and tasks. We introduce \textbf{EvoSkill}, a self-evolving framework that automatically discovers and refines agent skills through iterative failure analysis. EvoSkill analyzes execution failures, proposes new skills or edits to existing ones, and materializes them into structured, reusable skill folders. A Pareto frontier of agent programs governs selection, retaining only skills that improve held-out validation performance while the underlying model remains frozen. We evaluate EvoSkill on two benchmarks: OfficeQA, a grounded reasoning benchmark over U.S.\ Treasury data, where it improves exact-match accuracy by \textbf{7.3\%} (60.6\% $\to$ 67.9\%); and SealQA, a search-augmented QA benchmark with noisy retrieval, where it yields a \textbf{12.1\%} gain (26.6\% $\to$ 38.7\%). We also investigate the zero-shot transfer capabilties of skills evolved on one task to the other; in particular: skills evolved from SealQA transfers zero-shot to BrowseComp, improving accuracy by \textbf{5.3\%} without modification demonstrating that skill-level optimization produces transferable capabilities beyond the training task.