KARL: Knowledge Agents via Reinforcement Learning
作者: Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle
分类: cs.AI, cs.LG
发布日期: 2026-03-05
备注: 77 pages, 43 figures, 17 tables
💡 一句话要点
提出KARL,通过强化学习训练企业搜索Agent,在复杂搜索任务中达到SOTA性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 企业搜索 知识Agent 多任务学习 合成数据 离策略学习 长程推理
📋 核心要点
- 现有企业搜索Agent在复杂、多步骤推理任务中表现不足,难以有效利用企业内部知识。
- KARL通过强化学习训练Agent,利用合成数据和多任务学习提升泛化能力和样本效率。
- 实验表明,KARL在多种搜索任务中优于现有模型,包括Claude 4.6和GPT 5.2,实现了帕累托最优。
📝 摘要(中文)
本文提出了一个通过强化学习训练企业搜索Agent的系统,该系统在一系列难以验证的Agent搜索任务中实现了最先进的性能。本文主要有四个贡献:一是引入了KARLBench,一个多功能评估套件,涵盖六种不同的搜索模式,包括约束驱动的实体搜索、跨文档报告合成、表格数值推理、详尽的实体检索、技术文档上的程序推理以及内部企业笔记上的事实聚合。二是表明,跨异构搜索行为训练的模型比针对任何单个基准优化的模型具有更好的泛化能力。三是开发了一种Agent合成流水线,该流水线采用长程推理和工具使用来生成多样化、有依据且高质量的训练数据,并通过能力越来越强的模型进行迭代引导。四是提出了一种新的后训练范式,该范式基于迭代的大批量离策略强化学习,该范式具有样本效率,对训练-推理引擎差异具有鲁棒性,并且自然地扩展到具有分布外泛化的多任务训练。与Claude 4.6和GPT 5.2相比,KARL在KARLBench上实现了成本-质量和延迟-质量权衡的帕累托最优,包括训练期间分布外的任务。通过足够的测试时计算,它超越了最强大的封闭模型。这些结果表明,定制的合成数据与多任务强化学习相结合,可以为有依据的推理提供经济高效且高性能的知识Agent。
🔬 方法详解
问题定义:论文旨在解决企业搜索Agent在复杂搜索任务中的性能瓶颈。现有方法通常难以处理需要长程推理、多步骤操作以及对异构数据源进行整合的任务,并且泛化能力不足,难以适应新的搜索场景。
核心思路:论文的核心思路是利用强化学习训练Agent,使其能够通过与环境的交互学习最优的搜索策略。通过构建合成数据,可以有效地扩展训练数据集,并覆盖各种复杂的搜索场景。此外,采用多任务学习可以提升Agent的泛化能力,使其能够适应不同的搜索任务。
技术框架:KARL的整体框架包括以下几个主要模块:1) KARLBench:一个多功能评估套件,用于评估Agent在不同搜索任务中的性能。2) Agent合成流水线:用于生成多样化、有依据且高质量的训练数据。3) 强化学习训练模块:使用离策略强化学习算法训练Agent。4) 后训练优化模块:使用迭代的大批量离策略强化学习进一步提升Agent的性能。
关键创新:论文的关键创新在于以下几个方面:1) 提出了KARLBench,一个全面的企业搜索Agent评估基准。2) 开发了一种Agent合成流水线,能够生成高质量的训练数据。3) 提出了一种新的后训练范式,基于迭代的大批量离策略强化学习,具有样本效率和鲁棒性。
关键设计:在Agent合成流水线中,使用了长程推理和工具使用来生成多样化的训练数据。在强化学习训练中,采用了离策略算法,例如DQN或SAC,并结合了经验回放机制。后训练优化模块使用了大批量数据进行训练,并对训练-推理引擎差异进行了优化。损失函数的设计考虑了任务的奖励信号和Agent的探索行为。
🖼️ 关键图片
📊 实验亮点
KARL在KARLBench上实现了显著的性能提升,超越了Claude 4.6和GPT 5.2等强大的闭源模型。在成本-质量和延迟-质量权衡方面,KARL实现了帕累托最优。即使在训练期间未见过的分布外任务上,KARL仍然表现出色,证明了其强大的泛化能力。通过足够的测试时计算,KARL甚至可以超越最强的闭源模型。
🎯 应用场景
KARL可应用于企业内部知识库搜索、智能客服、自动化报告生成等领域。通过提升搜索Agent的推理能力和泛化能力,可以帮助企业员工更高效地获取所需信息,提高工作效率,并降低运营成本。未来,该技术有望应用于更广泛的知识密集型任务,例如智能投研、法律咨询等。
📄 摘要(原文)
We present a system for training enterprise search agents via reinforcement learning that achieves state-of-the-art performance across a diverse suite of hard-to-verify agentic search tasks. Our work makes four core contributions. First, we introduce KARLBench, a multi-capability evaluation suite spanning six distinct search regimes, including constraint-driven entity search, cross-document report synthesis, tabular numerical reasoning, exhaustive entity retrieval, procedural reasoning over technical documentation, and fact aggregation over internal enterprise notes. Second, we show that models trained across heterogeneous search behaviors generalize substantially better than those optimized for any single benchmark. Third, we develop an agentic synthesis pipeline that employs long-horizon reasoning and tool use to generate diverse, grounded, and high-quality training data, with iterative bootstrapping from increasingly capable models. Fourth, we propose a new post-training paradigm based on iterative large-batch off-policy RL that is sample efficient, robust to train-inference engine discrepancies, and naturally extends to multi-task training with out-of-distribution generalization. Compared to Claude 4.6 and GPT 5.2, KARL is Pareto-optimal on KARLBench across cost-quality and latency-quality trade-offs, including tasks that were out-of-distribution during training. With sufficient test-time compute, it surpasses the strongest closed models. These results show that tailored synthetic data in combination with multi-task reinforcement learning enables cost-efficient and high-performing knowledge agents for grounded reasoning.