WebFactory: Automated Compression of Foundational Language Intelligence into Grounded Web Agents

📄 arXiv: 2603.05044v1 📥 PDF

作者: Sicheng Fan, Qingyun Shi, Shengze Xu, Shengbo Cai, Tieyong Zeng, Li Ling, Yanyi Shang, Dehan Kong

分类: cs.AI

发布日期: 2026-03-05


💡 一句话要点

WebFactory:将LLM知识自动压缩为可交互Web智能体

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 强化学习 大型语言模型 自动化训练 Web交互 环境合成 具身智能

📋 核心要点

  1. 现有GUI智能体训练依赖人工标注或在线交互,成本高昂且难以复现,限制了智能体的泛化能力。
  2. WebFactory通过全自动闭环强化学习流程,将LLM的知识压缩为可执行动作,提升数据效率和泛化能力。
  3. 实验表明,WebFactory仅用少量合成数据训练的智能体,性能媲美甚至超越大量人工标注数据训练的智能体。

📝 摘要(中文)

现有的GUI智能体训练范式受限于不安全、不可复现的在线Web交互,或代价高昂、稀缺的人工标注数据和环境。本文认为,数据量并非关键,更重要的是将大型语言模型(LLM)的潜在知识压缩为可执行的智能体行为的效率。为此,我们提出了WebFactory,一种新颖的全自动闭环强化学习流程,用于GUI智能体,系统地将LLM编码的互联网智能压缩为高效、可执行的动作。该流程包括可扩展的环境合成、知识感知的任务生成、LLM驱动的轨迹收集、分解奖励的强化学习训练和系统化的智能体评估。实验表明,我们的智能体具有卓越的数据效率和泛化能力。仅在WebFactory中10个网站的合成数据上训练,其性能就与在更大环境集合上相同数量的人工标注数据训练的GUI智能体相当。这种优越的性能在我们内部的离线和在线迁移基准测试中是一致的,我们的智能体也显著优于基础LLM。我们进一步提供了对不同LLM基础模型的“具身潜力”的关键见解,为模型评估提供了一个新的维度。这项工作提出了一种可扩展且经济高效的范式,用于将被动的互联网知识转化为主动的、可执行的智能,标志着朝着通用交互式智能体迈出的关键一步。

🔬 方法详解

问题定义:现有GUI智能体的训练方法主要依赖于两种方式:一是直接与真实Web环境交互,但这种方式存在安全风险且难以复现;二是依赖人工标注的数据,成本高昂且数据量有限。这两种方式都难以有效地将LLM中蕴含的丰富互联网知识转化为智能体的实际操作能力,限制了智能体的泛化性和实用性。

核心思路:WebFactory的核心思路是通过一个全自动的闭环强化学习流程,将LLM的知识高效地压缩到GUI智能体的行为中。它不依赖于大量的人工标注数据,而是通过自动生成环境、任务和训练数据,降低了训练成本,并提高了智能体的数据效率和泛化能力。这种方法的核心在于利用LLM的先验知识,指导智能体的学习过程。

技术框架:WebFactory的整体框架包含以下几个主要模块:1) 可扩展环境合成:自动生成各种Web环境,模拟真实世界的网页交互场景。2) 知识感知任务生成:利用LLM生成与环境相关的任务,确保任务的多样性和挑战性。3) LLM驱动的轨迹收集:使用LLM生成初始的交互轨迹,为强化学习提供指导。4) 分解奖励的强化学习训练:设计分解的奖励函数,引导智能体学习完成任务所需的关键步骤。5) 系统化的智能体评估:通过离线和在线基准测试,全面评估智能体的性能和泛化能力。

关键创新:WebFactory的关键创新在于其全自动化的闭环强化学习流程,以及对LLM“具身潜力”的探索。它摆脱了对人工标注数据的依赖,通过自动生成环境和任务,实现了智能体训练的规模化和高效化。此外,该研究还提出了一个评估LLM作为智能体基础模型的潜力的新方法。

关键设计:在环境合成方面,WebFactory采用了一种可扩展的方法,可以生成各种类型的Web页面。在奖励函数设计方面,采用了分解奖励的方式,将任务分解为多个子步骤,并为每个子步骤设计相应的奖励,从而引导智能体学习完成任务。在强化学习算法方面,使用了常见的强化学习算法,并针对GUI智能体的特点进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WebFactory训练的智能体仅使用10个网站的合成数据,就达到了与使用大量人工标注数据训练的智能体相当的性能。在内部离线和在线迁移基准测试中,该智能体也显著优于基础LLM,证明了其卓越的数据效率和泛化能力。此外,该研究还对不同LLM的“具身潜力”进行了评估,为模型选择提供了新的依据。

🎯 应用场景

WebFactory的研究成果可应用于开发各种自动化Web应用,例如自动化的网页信息提取、在线购物助手、智能客服等。它能够降低开发成本,提高智能体的泛化能力,并促进通用交互式智能体的研究和发展。该技术还有潜力应用于其他需要与图形界面交互的领域,例如软件测试、机器人控制等。

📄 摘要(原文)

Current paradigms for training GUI agents are fundamentally limited by a reliance on either unsafe, non-reproducible live web interactions or costly, scarce human-crafted data and environments. We argue this focus on data volume overlooks a more critical factor: the efficiency of compressing a large language model's (LLM) latent knowledge into actionable agent behavior. We introduce WebFactory, a novel, fully automated closed-loop reinforcement learning pipeline for GUI agents, systematically compressing LLM-encoded internet intelligence into efficient, grounded actions. Our pipeline features a process of scalable environment synthesis, knowledge-aware task generation, LLM-powered trajectory collection, decomposed reward RL training, and systematic agent evaluation. Remarkably, our agent demonstrates exceptional data efficiency and generalization. Trained on synthetic data from only 10 websites within WebFactory, it achieves performance comparable to GUI agents trained on the same amount of human-annotated data from a much larger set of environments. This superior performance is consistent across our internal offline and online transfer benchmarks, where our agent also significantly outperforms the base foundation model. We further provide critical insights into the "embodiment potential" of different LLM foundations, offering a new axis for model evaluation. This work presents a scalable and cost-effective paradigm for transforming passive internet knowledge into active, grounded intelligence, marking a critical step towards general-purpose interactive agents.