MobileDreamer: Generative Sketch World Model for GUI Agent
作者: Yilin Cao, Yufeng Zhong, Zhixiong Zeng, Liming Zheng, Jing Huang, Haibo Qiu, Peng Shi, Wenji Mao, Wan Guanglu
分类: cs.AI
发布日期: 2026-01-07
💡 一句话要点
MobileDreamer:为GUI代理构建生成式草图世界模型,提升长时任务性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: GUI代理 世界模型 文本草图 长时任务 移动自动化
📋 核心要点
- 现有移动GUI代理主要依赖当前屏幕信息进行决策,缺乏对未来状态的预测能力,限制了其在长时任务中的表现。
- MobileDreamer通过构建文本草图世界模型,预测动作后的GUI状态,并利用rollout想象优化动作选择,提升决策质量。
- 实验表明,MobileDreamer在Android World上取得了SOTA性能,任务成功率提升了5.25%,验证了文本草图建模的有效性。
📝 摘要(中文)
移动GUI代理在实际自动化和应用中展现出巨大潜力。然而,现有代理大多是反应式的,主要基于当前屏幕做出决策,这限制了它们在长时任务中的表现。从重复交互中构建世界模型能够预测动作结果,并为移动GUI代理提供更好的决策支持。这面临挑战,因为模型必须在保持足够效率以进行实际部署的同时,预测具有空间感知能力的动作后状态。本文提出了MobileDreamer,一个高效的基于世界模型的预测框架,通过世界模型提供的未来想象来增强GUI代理。它包含文本草图世界模型和GUI代理的rollout想象。文本草图世界模型通过学习过程将数字图像转换为关键的任务相关草图,从而预测动作后状态,并设计了一种新颖的顺序不变学习策略来保留GUI元素的空间信息。GUI代理的rollout想象策略通过利用世界模型的预测能力来优化动作选择过程。在Android World上的实验表明,MobileDreamer实现了最先进的性能,并将任务成功率提高了5.25%。世界模型评估进一步验证了我们的文本草图建模能够准确预测关键GUI元素。
🔬 方法详解
问题定义:现有移动GUI代理在长时任务中表现不佳,主要原因是它们是反应式的,仅依赖当前屏幕状态进行决策,缺乏对未来状态的预测能力。这导致代理难以制定长远规划,容易陷入局部最优。现有方法难以在保持效率的同时,对GUI元素进行空间感知建模,从而准确预测动作后的状态。
核心思路:MobileDreamer的核心思路是构建一个世界模型,该模型能够预测执行动作后的GUI状态。通过让代理在世界模型中进行“rollout”,即模拟未来多个步骤,代理可以选择能够最大化长期回报的动作。这种基于预测的决策方式能够克服反应式代理的局限性,提升在长时任务中的表现。将图像转换为文本草图,降低了计算复杂度,同时保留了关键的空间信息。
技术框架:MobileDreamer框架包含两个主要模块:文本草图世界模型和GUI代理的rollout想象。文本草图世界模型负责学习GUI元素的表示,并预测执行动作后的状态。GUI代理的rollout想象利用世界模型的预测能力,通过模拟未来多个步骤来选择最优动作。整体流程是:首先,代理观察当前屏幕状态;然后,代理利用世界模型预测执行不同动作后的状态;接着,代理根据预测结果选择最优动作;最后,代理执行该动作,并观察新的屏幕状态,用于更新世界模型。
关键创新:MobileDreamer的关键创新在于文本草图世界模型和顺序不变学习策略。文本草图世界模型将数字图像转换为关键的任务相关草图,降低了计算复杂度,同时保留了关键的空间信息。顺序不变学习策略解决了GUI元素顺序变化的问题,保证了模型能够学习到GUI元素的空间关系。与现有方法相比,MobileDreamer更加高效,并且能够更好地处理GUI元素的空间信息。
关键设计:文本草图世界模型使用Transformer架构,将图像编码为文本序列。顺序不变学习策略通过对GUI元素进行排序,使得模型能够学习到GUI元素的空间关系,而与元素的顺序无关。Rollout想象使用蒙特卡洛树搜索(MCTS)算法,在世界模型中进行模拟,选择最优动作。损失函数包括重构损失和预测损失,用于训练世界模型。
📊 实验亮点
MobileDreamer在Android World数据集上取得了显著的性能提升,任务成功率提高了5.25%,达到了SOTA水平。与现有基线方法相比,MobileDreamer在长时任务中表现出更强的优势。世界模型评估结果表明,MobileDreamer能够准确预测关键GUI元素,验证了文本草图建模的有效性。
🎯 应用场景
MobileDreamer可应用于各种移动GUI自动化场景,例如自动填写表单、自动预订机票酒店、自动执行社交媒体任务等。该研究的实际价值在于提升了移动GUI代理的智能化水平,使其能够更好地完成复杂任务。未来,MobileDreamer有望应用于智能家居、智能客服等领域,实现更广泛的自动化。
📄 摘要(原文)
Mobile GUI agents have shown strong potential in real-world automation and practical applications. However, most existing agents remain reactive, making decisions mainly from current screen, which limits their performance on long-horizon tasks. Building a world model from repeated interactions enables forecasting action outcomes and supports better decision making for mobile GUI agents. This is challenging because the model must predict post-action states with spatial awareness while remaining efficient enough for practical deployment. In this paper, we propose MobileDreamer, an efficient world-model-based lookahead framework to equip the GUI agents based on the future imagination provided by the world model. It consists of textual sketch world model and rollout imagination for GUI agent. Textual sketch world model forecasts post-action states through a learning process to transform digital images into key task-related sketches, and designs a novel order-invariant learning strategy to preserve the spatial information of GUI elements. The rollout imagination strategy for GUI agent optimizes the action-selection process by leveraging the prediction capability of world model. Experiments on Android World show that MobileDreamer achieves state-of-the-art performance and improves task success by 5.25%. World model evaluations further verify that our textual sketch modeling accurately forecasts key GUI elements.