O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL

📄 arXiv: 2601.03743v1 📥 PDF

作者: Yi Yao, He Zhu, Piaohong Wang, Jincheng Ren, Xinlong Yang, Qianben Chen, Xiaowan Li, Dingfeng Shi, Jiaxian Li, Qiexiang Wang, Sinuo Wang, Xinpeng Liu, Jiaqi Wu, Minghao Liu, Wangchunshu Zhou

分类: cs.CL, cs.AI

发布日期: 2026-01-07

备注: 22 pages


💡 一句话要点

O-Researcher:通过多智能体蒸馏和Agentic RL实现开放域深度研究模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多智能体系统 强化学习 数据蒸馏 开源模型 深度研究 自动化数据生成

📋 核心要点

  1. 开源LLM与闭源LLM的性能差距主要源于高质量训练数据的可获取性差异。
  2. 论文提出一种多智能体协作框架,模拟复杂工具集成推理,自动生成高质量研究级教学数据。
  3. 通过监督微调和强化学习相结合的两阶段训练策略,提升开源模型在深度研究基准上的性能。

📝 摘要(中文)

本文提出了一种新颖的框架,用于自动合成复杂的研究级教学数据,旨在弥合闭源和开源大型语言模型(LLM)之间的性能差距。该方法的核心是一个多智能体工作流程,其中协作式AI智能体模拟复杂的工具集成推理,以端到端地生成多样且高质量的数据。利用这些合成数据,开发了一种两阶段训练策略,该策略集成了监督微调和一种新颖的强化学习方法,旨在最大限度地提高模型对齐和能力。大量实验表明,该框架能够增强多种规模的开源模型,使其在主要的深度研究基准测试中实现新的最先进性能。这项工作为推进开源LLM提供了一条可扩展且有效的途径,而无需依赖专有数据或模型。

🔬 方法详解

问题定义:现有开源大型语言模型(LLM)在性能上与闭源模型存在显著差距,这主要是由于缺乏高质量的训练数据。现有方法难以有效生成高质量、多样化的研究级教学数据,限制了开源LLM的发展。

核心思路:论文的核心思路是利用多智能体协作,模拟人类研究人员使用工具进行复杂推理的过程,从而自动生成高质量的训练数据。通过这种方式,可以克服开源LLM在数据获取方面的瓶颈,提升其研究能力。

技术框架:该框架包含以下主要模块:1) 多智能体环境:多个AI智能体协同工作,每个智能体负责不同的任务,例如信息检索、数据分析、报告撰写等。2) 工具集成:智能体可以访问各种工具,例如搜索引擎、数据库、计算器等,以辅助其完成任务。3) 数据生成:智能体通过模拟研究过程,生成包含问题、解决方案、推理过程等信息的训练数据。4) 两阶段训练:首先使用监督微调(SFT)对模型进行初步训练,然后使用强化学习(RL)进一步优化模型,使其更好地对齐人类意图。

关键创新:该方法的主要创新在于:1) 提出了一种基于多智能体协作的自动化数据生成框架,能够高效地生成高质量的研究级教学数据。2) 结合监督微调和强化学习,设计了一种有效的两阶段训练策略,能够显著提升开源LLM的性能。3) 强调了工具集成的重要性,使智能体能够利用外部知识和工具进行更深入的推理。

关键设计:在多智能体环境中,智能体的数量、角色分配、通信协议等都需要精心设计。在强化学习阶段,需要设计合适的奖励函数,以引导智能体生成高质量的数据并进行有效的推理。具体的参数设置、损失函数、网络结构等细节在论文中进行了详细描述,但此处无法完全展开。

📊 实验亮点

实验结果表明,该框架能够显著提升开源模型在深度研究基准测试中的性能,使其达到新的state-of-the-art水平。具体的性能数据和对比基线在论文中进行了详细展示,证明了该方法的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于开源LLM的训练和优化,提升其在科学研究、知识发现、问题解决等领域的应用能力。通过自动化生成高质量训练数据,降低了LLM的训练成本,加速了开源LLM的发展,并有望推动人工智能在各个领域的创新应用。

📄 摘要(原文)

The performance gap between closed-source and open-source large language models (LLMs) is largely attributed to disparities in access to high-quality training data. To bridge this gap, we introduce a novel framework for the automated synthesis of sophisticated, research-grade instructional data. Our approach centers on a multi-agent workflow where collaborative AI agents simulate complex tool-integrated reasoning to generate diverse and high-fidelity data end-to-end. Leveraging this synthesized data, we develop a two-stage training strategy that integrates supervised fine-tuning with a novel reinforcement learning method, designed to maximize model alignment and capability. Extensive experiments demonstrate that our framework empowers open-source models across multiple scales, enabling them to achieve new state-of-the-art performance on the major deep research benchmark. This work provides a scalable and effective pathway for advancing open-source LLMs without relying on proprietary data or models.