UI-Oceanus: Scaling GUI Agents with Synthetic Environmental Dynamics
作者: Mengzhou Wu, Yuzhe Guo, Yuan Cao, Haochuan Lu, Songhe Zhu, Pingzhe Qu, Xin Chen, Kang Qin, Zhongpu Wang, Xiaode Zhang, Xinyi Wang, Wei Dai, Gang Cao, Yuetang Deng, Zhi Gong, Dezhi Ran, Linyi Li, Wei Yang, Tao Xie
分类: cs.LG, cs.AI
发布日期: 2026-04-06
💡 一句话要点
UI-Oceanus:利用合成环境动力学扩展GUI智能体
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: GUI自动化 环境动力学 前向预测 自监督学习 持续预训练 世界模型 人机交互
📋 核心要点
- 现有GUI智能体扩展受限于人工标注成本高昂和蒸馏学习的性能上限,难以有效利用大规模数据。
- UI-Oceanus框架通过学习环境动力学,特别是前向预测,构建智能体的内部世界模型,摆脱对人工轨迹的依赖。
- 实验表明,基于合成动力学预训练的模型在离线和在线导航任务中均显著优于基线模型,且性能随数据量增加而提升。
📝 摘要(中文)
通用GUI智能体的扩展受到昂贵的人工演示数据可扩展性瓶颈和合成教师监督的“蒸馏上限”的限制。为了克服这些限制,我们提出了UI-Oceanus,该框架将学习重点从模仿高层轨迹转移到通过真实环境反馈掌握交互物理。通过对自监督目标的系统研究,我们发现前向动力学(定义为未来界面状态的生成式预测)是可扩展性的主要驱动力,并且明显超过了逆向推理。UI-Oceanus利用这一洞察力,将低成本的自主探索(通过系统执行直接验证)转化为高密度生成式监督,以构建强大的内部世界模型。跨一系列模型的实验评估表明了我们方法的决定性优势:利用合成动力学进行持续预训练(CPT)的模型在离线基准测试中优于非CPT基线,平均成功率提高了7%,在真实世界的在线导航中增益扩大到16.8%。此外,我们观察到导航性能随合成数据量的增加而扩展。这些结果证实,将智能体置于前向预测建模中,为可扩展的GUI自动化提供了一条卓越的途径,具有强大的跨领域适应性和组合泛化能力。
🔬 方法详解
问题定义:现有GUI智能体依赖于人工演示数据或蒸馏学习,面临数据获取成本高昂和性能瓶颈。人工标注数据难以扩展,而蒸馏学习又受限于教师模型的性能上限,导致智能体泛化能力不足。
核心思路:UI-Oceanus的核心在于将学习重点从模仿人类轨迹转移到学习GUI环境的动力学模型。通过预测未来界面状态,智能体可以理解交互行为与环境变化之间的关系,从而构建更鲁棒的内部世界模型。这种方法允许智能体通过自主探索和系统反馈进行学习,摆脱对人工标注数据的依赖。
技术框架:UI-Oceanus框架包含以下主要模块:1) 自主探索模块,智能体在GUI环境中进行自主探索,生成交互序列。2) 前向动力学模型,该模型预测给定当前界面状态和交互行为后的未来界面状态。3) 自监督学习模块,利用自主探索生成的数据,通过最小化预测状态与实际状态之间的差异来训练前向动力学模型。4) 策略学习模块,利用训练好的前向动力学模型,学习执行特定任务的策略。
关键创新:UI-Oceanus的关键创新在于利用前向动力学模型作为智能体学习的主要驱动力。与传统的模仿学习或逆向推理方法不同,UI-Oceanus通过预测未来状态来学习环境的内在规律,从而实现更强的泛化能力和可扩展性。此外,该框架利用低成本的自主探索生成大规模训练数据,有效解决了数据瓶颈问题。
关键设计:前向动力学模型采用Transformer架构,输入为当前界面状态和交互行为,输出为预测的未来界面状态。损失函数采用像素级别的均方误差(MSE)或交叉熵损失,用于衡量预测状态与实际状态之间的差异。在训练过程中,采用持续预训练(CPT)策略,不断利用新的自主探索数据更新前向动力学模型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UI-Oceanus在离线基准测试中,相对于非CPT基线,平均成功率提高了7%。在真实世界的在线导航任务中,成功率提升幅度达到16.8%。此外,实验还验证了导航性能随合成数据量的增加而扩展,证明了该方法的可扩展性。
🎯 应用场景
UI-Oceanus可应用于各种GUI自动化场景,例如软件测试、流程自动化、用户辅助等。通过学习环境动力学,智能体可以自主完成复杂的GUI任务,提高工作效率,降低人工成本。该研究为开发更智能、更通用的GUI智能体提供了新的思路,有望推动人机交互领域的发展。
📄 摘要(原文)
Scaling generalist GUI agents is hindered by the data scalability bottleneck of expensive human demonstrations and the "distillation ceiling" of synthetic teacher supervision. To transcend these limitations, we propose UI-Oceanus, a framework that shifts the learning focus from mimicking high-level trajectories to mastering interaction physics via ground-truth environmental feedback. Through a systematic investigation of self-supervised objectives, we identify that forward dynamics, defined as the generative prediction of future interface states, acts as the primary driver for scalability and significantly outweighs inverse inference. UI-Oceanus leverages this insight by converting low-cost autonomous exploration, which is verified directly by system execution, into high-density generative supervision to construct a robust internal world model. Experimental evaluations across a series of models demonstrate the decisive superiority of our approach: models utilizing Continual Pre-Training (CPT) on synthetic dynamics outperform non-CPT baselines with an average success rate improvement of 7% on offline benchmarks, which amplifies to a 16.8% gain in real-world online navigation. Furthermore, we observe that navigation performance scales with synthetic data volume. These results confirm that grounding agents in forward predictive modeling offers a superior pathway to scalable GUI automation with robust cross-domain adaptability and compositional generalization.