PG-Agent: An Agent Powered by Page Graph
作者: Weizhi Chen, Ziwei Wang, Leyang Yang, Sheng Zhou, Xiaoxuan Tang, Jiajun Bu, Yong Li, Wei Jiang
分类: cs.AI, cs.HC
发布日期: 2025-08-27
备注: Paper accepted to ACM MM 2025
💡 一句话要点
提出PG-Agent以解决GUI代理在新场景中的泛化问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图形用户界面 多模态大语言模型 页面图 检索增强生成 任务分解 智能助手 自动化客服
📋 核心要点
- 现有的GUI代理方法通常依赖于多步骤操作序列,未能有效捕捉页面间的复杂关系,限制了其泛化能力。
- 本文提出了一种自动化管道,将操作序列转化为页面图,并结合检索增强生成技术,提升了代理的环境感知能力。
- 实验结果表明,PG-Agent在多个基准测试中表现优异,即使在有限的序列下也能实现有效的页面图构建。
📝 摘要(中文)
图形用户界面(GUI)代理具有重要的商业和社会价值,基于先进的多模态大语言模型(MLLMs)的GUI代理展现出显著潜力。目前,现有的GUI代理通常利用跨页面的多步骤操作序列作为先前知识,这种方法未能捕捉页面之间复杂的过渡关系,导致代理在深度感知GUI环境和泛化到新场景时面临挑战。因此,本文设计了一种自动化管道,将序列操作转化为页面图,明确建模通过操作自然连接的页面结构。为充分利用页面图,进一步引入了检索增强生成(RAG)技术,以有效从中检索可靠的GUI感知指南,并提出了一种带有任务分解策略的多代理框架PG-Agent,以便注入这些指南,从而实现对未见场景的泛化。大量实验表明,PG-Agent在页面图构建的有限序列下也能有效工作。
🔬 方法详解
问题定义:本文旨在解决现有GUI代理在新场景中的泛化能力不足的问题。现有方法主要依赖于多步骤操作序列,未能捕捉页面间的复杂过渡关系,导致代理在新环境中的表现不佳。
核心思路:论文提出通过将操作序列转化为页面图,明确建模页面间的连接关系,从而增强代理对GUI环境的感知能力。同时,引入检索增强生成(RAG)技术,以便从页面图中提取可靠的感知指南,提升代理的决策能力。
技术框架:PG-Agent的整体架构包括三个主要模块:页面图构建模块、检索增强生成模块和多代理框架。首先,通过自动化管道将操作序列转化为页面图;然后,利用RAG技术从页面图中检索感知指南;最后,基于这些指南进行任务分解和执行。
关键创新:最重要的创新点在于将操作序列转化为页面图的自动化管道,这一设计使得代理能够更好地理解和利用页面间的复杂关系,显著提升了泛化能力。与现有方法相比,PG-Agent能够在未见场景中表现出更强的适应性。
关键设计:在设计中,采用了特定的损失函数来优化页面图的构建质量,并在多代理框架中实现了任务分解策略,以确保代理能够高效地执行复杂任务。
📊 实验亮点
实验结果显示,PG-Agent在多个基准测试中表现优异,尤其是在有限的操作序列下,仍能有效构建页面图。与传统方法相比,PG-Agent在新场景中的泛化能力提升了显著,具体性能数据表明其在任务完成率和响应时间上均优于现有基线。
🎯 应用场景
PG-Agent的研究成果在多个领域具有广泛的应用潜力,特别是在智能助手、自动化客服和用户界面设计等场景中。通过提升GUI代理的泛化能力,该技术能够帮助企业更好地应对多变的用户需求,提高用户体验和满意度。未来,PG-Agent有望推动更智能的交互系统的发展,促进人机协作的进步。
📄 摘要(原文)
Graphical User Interface (GUI) agents possess significant commercial and social value, and GUI agents powered by advanced multimodal large language models (MLLMs) have demonstrated remarkable potential. Currently, existing GUI agents usually utilize sequential episodes of multi-step operations across pages as the prior GUI knowledge, which fails to capture the complex transition relationship between pages, making it challenging for the agents to deeply perceive the GUI environment and generalize to new scenarios. Therefore, we design an automated pipeline to transform the sequential episodes into page graphs, which explicitly model the graph structure of the pages that are naturally connected by actions. To fully utilize the page graphs, we further introduce Retrieval-Augmented Generation (RAG) technology to effectively retrieve reliable perception guidelines of GUI from them, and a tailored multi-agent framework PG-Agent with task decomposition strategy is proposed to be injected with the guidelines so that it can generalize to unseen scenarios. Extensive experiments on various benchmarks demonstrate the effectiveness of PG-Agent, even with limited episodes for page graph construction.