FT-Dojo: Towards Autonomous LLM Fine-Tuning with Language Agents
作者: Qizheng Li, Yifei Zhang, Xiao Yang, Xu Yang, Zhuo Wang, Weiqing Liu, Jiang Bian
分类: cs.AI, cs.LG
发布日期: 2026-03-02
备注: 24 pages, 6 figures, 9 tables
💡 一句话要点
FT-Dojo:利用语言Agent实现LLM的自主微调
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型微调 自主学习 强化学习 语言Agent 自动化机器学习
📋 核心要点
- 现有LLM微调过程依赖领域专家,耗时费力,缺乏自动化,限制了其在垂直领域的应用。
- 论文提出FT-Agent,一个基于LLM的自主系统,通过评估反馈迭代诊断和改进微调策略,模拟人类专家。
- 实验表明,FT-Agent在FT-Dojo环境的多个任务中优于通用Agent,并在3B模型上表现出良好的泛化能力。
📝 摘要(中文)
针对垂直领域的大语言模型微调仍然是一个劳动密集且成本高昂的过程,需要领域专家来管理数据、配置训练并迭代地诊断模型行为。尽管人们对自主机器学习的兴趣日益浓厚,但之前的工作尚未涉及使用Agent进行端到端的LLM微调。基于LLM的Agent能否自动化这个完整的过程?我们将此视为一个重要的开放性问题:Agent必须驾驭一个开放式的搜索空间,涵盖从各种数据源的数据管理、使用复杂工具进行处理、构建训练pipeline,以及基于快速增长的日志中的评估结果迭代地改进其方法——总体场景比现有的基准测试更为复杂。为了研究这个问题,我们引入了FT-Dojo,这是一个包含5个领域中13个任务的交互式环境。我们进一步开发了FT-Agent,这是一个自主系统,通过利用评估驱动的反馈来迭代地诊断失败并改进微调策略,从而模仿人类专家。在FT-Dojo上的实验表明,专门构建的微调Agent明显优于通用Agent,其中FT-Agent在所有五个领域的13个任务中的10个任务上实现了最佳性能。消融实验表明,该方法可以有效地推广到3B模型,并提供了关于数据缩放权衡和骨干网络敏感性的额外见解。案例分析表明,Agent可以通过从历史经验中累积学习来从失败中恢复,同时也暴露了因果推理中的基本局限性——突出了自主LLM微调的前景和当前界限。
🔬 方法详解
问题定义:论文旨在解决垂直领域大语言模型微调过程中数据管理、训练配置和模型诊断等环节高度依赖人工,效率低下且成本高昂的问题。现有方法缺乏自动化,难以应对复杂多变的实际场景。
核心思路:论文的核心思路是利用LLM构建自主Agent,模拟领域专家进行LLM微调。Agent通过与环境交互,收集数据、配置训练、评估模型,并根据评估结果迭代优化微调策略,实现端到端的自动化微调。
技术框架:FT-Agent系统包含以下主要模块:数据收集模块,负责从不同数据源收集数据;数据处理模块,使用各种工具对数据进行清洗、转换和增强;训练pipeline构建模块,负责配置训练参数、选择优化器和损失函数等;模型评估模块,根据预定义的指标评估模型性能;策略优化模块,根据评估结果调整数据收集、数据处理和训练pipeline的策略。整个流程是一个迭代循环,Agent不断试错和学习,最终达到最佳的微调效果。
关键创新:论文的关键创新在于将LLM应用于自主微调Agent的构建,并设计了一个交互式环境FT-Dojo用于Agent的训练和评估。与传统的自动化机器学习方法不同,FT-Agent能够利用LLM的强大能力进行复杂的推理和决策,从而更好地适应不同的微调任务。
关键设计:FT-Agent的关键设计包括:使用评估驱动的反馈机制,Agent根据模型评估结果调整微调策略;利用历史经验进行累积学习,Agent从之前的失败中学习,避免重复犯错;设计了包含多个领域和任务的FT-Dojo环境,用于Agent的训练和评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FT-Agent在FT-Dojo环境的13个任务中的10个任务上取得了最佳性能,显著优于通用Agent。消融实验表明,该方法可以有效地推广到3B模型。案例分析表明,Agent可以通过从历史经验中累积学习来从失败中恢复。这些结果表明,FT-Agent具有很强的自主微调能力和泛化能力。
🎯 应用场景
该研究成果可应用于各种垂直领域的大语言模型微调,例如金融、医疗、法律等。通过自动化微调过程,可以降低微调成本,提高微调效率,并使更多领域能够利用大语言模型的强大能力。未来,该技术有望进一步发展,实现完全自主的大语言模型开发和部署。
📄 摘要(原文)
Fine-tuning large language models for vertical domains remains a labor-intensive and expensive process, requiring domain experts to curate data, configure training, and iteratively diagnose model behavior. Despite growing interest in autonomous machine learning, no prior work has tackled end-to-end LLM fine-tuning with agents. Can LLM-based agents automate this complete process? We frame this as a substantially open problem: agents must navigate an open-ended search space spanning data curation from diverse data sources, processing with complex tools, building a training pipeline, and iteratively refining their approach based on evaluation outcomes in rapidly growing logs--an overall scenario far more intricate than existing benchmarks. To study this question, we introduce FT-Dojo, an interactive environment comprising 13 tasks across 5 domains. We further develop FT-Agent, an autonomous system that mirrors human experts by leveraging evaluation-driven feedback to iteratively diagnose failures and refine fine-tuning strategies. Experiments on FT-Dojo demonstrate that purpose-built fine-tuning agents significantly outperform general-purpose alternatives, with FT-Agent achieving the best performance on 10 out of 13 tasks across all five domains. Ablations show that the approach generalizes effectively to 3B models, with additional insights on data scaling trade-offs and backbone sensitivity. Case analyses reveal that agents can recover from failures through cumulative learning from historical experience, while also exposing fundamental limitations in causal reasoning--highlighting both the promise and current boundaries of autonomous LLM fine-tuning.