CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning
作者: Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo
分类: cs.LG, cs.CV
发布日期: 2026-03-03
💡 一句话要点
提出CGL框架,通过强化微调提升GUI Agent的持续学习能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 GUI Agent 强化学习 监督微调 梯度手术 多模态学习 知识保留 策略熵
📋 核心要点
- GUI应用频繁更新,现有监督微调易遗忘旧任务,持续学习面临挑战。
- CGL框架融合监督微调和强化学习,动态平衡适应性和知识保留。
- AndroidControl-CL基准测试表明,CGL框架在持续学习场景中表现出色。
📝 摘要(中文)
图形用户界面(GUI)Agent受益于多模态大型语言模型(MLLM)的最新进展,取得了显著发展。然而,由于GUI应用程序的频繁更新,在GUI持续学习中,如何在适应新任务的同时不遗忘旧任务仍然是一个开放性问题。本文揭示了监督式微调(SFT)虽然有助于快速适应,但常常会触发知识覆盖,而强化学习(RL)则表现出固有的弹性,可以保护先前的交互逻辑免受擦除。基于此,我们提出了一个持续GUI学习(CGL)框架,通过增强SFT和RL之间的协同作用,动态平衡适应效率和技能保留。具体来说,我们引入了一种由策略熵引导的SFT比例调整机制,以动态控制SFT和RL训练阶段之间的权重分配。为了解决显式梯度干扰,我们进一步开发了一种专门的梯度手术策略。通过将探索性SFT梯度投影到基于GRPO的锚定梯度上,我们的方法显式地裁剪了与GRPO冲突的SFT梯度的分量。此外,我们建立了一个AndroidControl-CL基准,该基准将GUI应用程序划分为不同的任务组,以有效地模拟和评估持续GUI学习的性能。实验结果表明,我们提出的CGL框架在持续学习场景中的有效性。基准、代码和模型将公开提供。
🔬 方法详解
问题定义:现有的GUI Agent在面对GUI应用程序的频繁更新时,难以在适应新任务的同时保持旧任务的性能。监督式微调(SFT)虽然能够快速适应新任务,但容易覆盖之前学习到的知识,导致灾难性遗忘。因此,如何在持续学习的场景下,让GUI Agent既能快速适应新环境,又能有效保留旧知识,是一个亟待解决的问题。
核心思路:论文的核心思路是结合监督式微调(SFT)和强化学习(RL)的优势。SFT能够快速适应新任务,而RL则具有更强的知识保留能力。通过动态地调整SFT和RL的比例,并采用梯度手术策略来减少梯度冲突,从而在适应性和知识保留之间取得平衡。这样设计的目的是为了克服SFT的灾难性遗忘问题,同时利用SFT的快速适应能力。
技术框架:CGL框架主要包含以下几个模块:1) SFT比例调整机制:根据策略熵动态调整SFT和RL的训练比例,策略熵越高,说明模型对当前任务的理解越不确定,此时增加SFT的比例以加速学习;2) 梯度手术策略:通过将SFT梯度投影到基于GRPO的锚定梯度上,显式地裁剪与GRPO冲突的SFT梯度分量,从而减少梯度干扰;3) AndroidControl-CL基准:用于评估CGL框架在持续学习场景下的性能。整体流程是,首先使用SFT进行初步的适应,然后根据策略熵调整SFT和RL的比例,并使用梯度手术策略来减少梯度冲突,最后在AndroidControl-CL基准上进行评估。
关键创新:论文的关键创新点在于:1) 提出了一个动态调整SFT和RL比例的机制,该机制能够根据策略熵自适应地调整SFT和RL的训练比例,从而在适应性和知识保留之间取得平衡;2) 提出了一种梯度手术策略,该策略能够显式地裁剪与GRPO冲突的SFT梯度分量,从而减少梯度干扰。与现有方法相比,CGL框架能够更好地平衡适应性和知识保留,从而在持续学习场景下取得更好的性能。
关键设计:SFT比例调整机制的关键在于策略熵的计算和SFT比例的调整策略。梯度手术策略的关键在于GRPO锚定梯度的选择和SFT梯度的投影方式。AndroidControl-CL基准的关键在于任务的划分和评估指标的选择。具体的参数设置、损失函数和网络结构等技术细节在论文中应该有详细的描述,但根据摘要无法得知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CGL框架在AndroidControl-CL基准上取得了显著的性能提升。具体来说,CGL框架在持续学习场景下,能够更好地平衡适应性和知识保留,从而在多个任务上都取得了优于现有方法的性能。具体的性能数据和提升幅度需要在论文中查找。
🎯 应用场景
该研究成果可应用于各种需要持续学习的GUI Agent,例如智能助手、自动化测试工具、以及各种需要不断适应新环境的应用程序。通过CGL框架,GUI Agent可以更好地适应GUI应用程序的频繁更新,从而提高用户体验和工作效率。未来,该研究还可以扩展到其他类型的持续学习任务,例如机器人控制和自然语言处理。
📄 摘要(原文)
Graphical User Interface (GUI) Agents, benefiting from recent advances in multimodal large language models (MLLM), have achieved significant development. However, due to the frequent updates of GUI applications, adapting to new tasks without forgetting old tasks in GUI continual learning remains an open problem. In this work, we reveal that while Supervised Fine-Tuning (SFT) facilitates fast adaptation, it often triggers knowledge overwriting, whereas Reinforcement Learning (RL) demonstrates an inherent resilience that shields prior interaction logic from erasure. Based on this insight, we propose a \textbf{C}ontinual \textbf{G}UI \textbf{L}earning (CGL) framework that dynamically balances adaptation efficiency and skill retention by enhancing the synergy between SFT and RL. Specifically, we introduce an SFT proportion adjustment mechanism guided by policy entropy to dynamically control the weight allocation between the SFT and RL training phases. To resolve explicit gradient interference, we further develop a specialized gradient surgery strategy. By projecting exploratory SFT gradients onto GRPO-based anchor gradients, our method explicitly clips the components of SFT gradients that conflict with GRPO. On top of that, we establish an AndroidControl-CL benchmark, which divides GUI applications into distinct task groups to effectively simulate and evaluate the performance of continual GUI learning. Experimental results demonstrate the effectiveness of our proposed CGL framework across continual learning scenarios. The benchmark, code, and model will be made publicly available.