O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL

作者: Yi Yao, He Zhu, Piaohong Wang, Jincheng Ren, Xinlong Yang, Qianben Chen, Xiaowan Li, Dingfeng Shi, Jiaxian Li, Qiexiang Wang, Sinuo Wang, Xinpeng Liu, Jiaqi Wu, Minghao Liu, Wangchunshu Zhou

分类: cs.CL, cs.AI

发布日期: 2026-01-07

备注: 22 pages

💡 一句话要点

O-Researcher：通过多智能体蒸馏和Agentic RL实现开放域深度研究模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多智能体系统 强化学习 数据蒸馏 开源模型 深度研究 自动化数据生成

📋 核心要点

开源LLM与闭源LLM的性能差距主要源于高质量训练数据的可获取性差异。
论文提出一种多智能体协作框架，模拟复杂工具集成推理，自动生成高质量研究级教学数据。
通过监督微调和强化学习相结合的两阶段训练策略，提升开源模型在深度研究基准上的性能。

📝 摘要（中文）

本文提出了一种新颖的框架，用于自动合成复杂的研究级教学数据，旨在弥合闭源和开源大型语言模型（LLM）之间的性能差距。该方法的核心是一个多智能体工作流程，其中协作式AI智能体模拟复杂的工具集成推理，以端到端地生成多样且高质量的数据。利用这些合成数据，开发了一种两阶段训练策略，该策略集成了监督微调和一种新颖的强化学习方法，旨在最大限度地提高模型对齐和能力。大量实验表明，该框架能够增强多种规模的开源模型，使其在主要的深度研究基准测试中实现新的最先进性能。这项工作为推进开源LLM提供了一条可扩展且有效的途径，而无需依赖专有数据或模型。

🔬 方法详解

问题定义：现有开源大型语言模型（LLM）在性能上与闭源模型存在显著差距，这主要是由于缺乏高质量的训练数据。现有方法难以有效生成高质量、多样化的研究级教学数据，限制了开源LLM的发展。

核心思路：论文的核心思路是利用多智能体协作，模拟人类研究人员使用工具进行复杂推理的过程，从而自动生成高质量的训练数据。通过这种方式，可以克服开源LLM在数据获取方面的瓶颈，提升其研究能力。

技术框架：该框架包含以下主要模块：1) 多智能体环境：多个AI智能体协同工作，每个智能体负责不同的任务，例如信息检索、数据分析、报告撰写等。2) 工具集成：智能体可以访问各种工具，例如搜索引擎、数据库、计算器等，以辅助其完成任务。3) 数据生成：智能体通过模拟研究过程，生成包含问题、解决方案、推理过程等信息的训练数据。4) 两阶段训练：首先使用监督微调（SFT）对模型进行初步训练，然后使用强化学习（RL）进一步优化模型，使其更好地对齐人类意图。

关键创新：该方法的主要创新在于：1) 提出了一种基于多智能体协作的自动化数据生成框架，能够高效地生成高质量的研究级教学数据。2) 结合监督微调和强化学习，设计了一种有效的两阶段训练策略，能够显著提升开源LLM的性能。3) 强调了工具集成的重要性，使智能体能够利用外部知识和工具进行更深入的推理。

关键设计：在多智能体环境中，智能体的数量、角色分配、通信协议等都需要精心设计。在强化学习阶段，需要设计合适的奖励函数，以引导智能体生成高质量的数据并进行有效的推理。具体的参数设置、损失函数、网络结构等细节在论文中进行了详细描述，但此处无法完全展开。

📊 实验亮点

实验结果表明，该框架能够显著提升开源模型在深度研究基准测试中的性能，使其达到新的state-of-the-art水平。具体的性能数据和对比基线在论文中进行了详细展示，证明了该方法的有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于开源LLM的训练和优化，提升其在科学研究、知识发现、问题解决等领域的应用能力。通过自动化生成高质量训练数据，降低了LLM的训练成本，加速了开源LLM的发展，并有望推动人工智能在各个领域的创新应用。

📄 摘要（原文）

The performance gap between closed-source and open-source large language models (LLMs) is largely attributed to disparities in access to high-quality training data. To bridge this gap, we introduce a novel framework for the automated synthesis of sophisticated, research-grade instructional data. Our approach centers on a multi-agent workflow where collaborative AI agents simulate complex tool-integrated reasoning to generate diverse and high-fidelity data end-to-end. Leveraging this synthesized data, we develop a two-stage training strategy that integrates supervised fine-tuning with a novel reinforcement learning method, designed to maximize model alignment and capability. Extensive experiments demonstrate that our framework empowers open-source models across multiple scales, enabling them to achieve new state-of-the-art performance on the major deep research benchmark. This work provides a scalable and effective pathway for advancing open-source LLMs without relying on proprietary data or models.

O-Researcher: An Open Ended Deep Research Model via Multi-Agent Distillation and Agentic RL

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册