\textsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding

📄 arXiv: 2510.04039v1 📥 PDF

作者: Bin Lei, Nuo Xu, Ali Payani, Mingyi Hong, Chunhua Liao, Yu Cao, Caiwen Ding

分类: cs.CV, cs.AI

发布日期: 2025-10-05


💡 一句话要点

GUI-Spotlight:自适应迭代聚焦优化,增强GUI视觉定位

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI视觉定位 多模态大语言模型 迭代聚焦 自适应工具选择 人机交互 自动化测试

📋 核心要点

  1. 现有MLLM在GUI视觉定位中精度不足,难以实现精确的点击和拖拽等指针级操作,限制了其在真实环境中的应用。
  2. GUI-Spotlight通过迭代调用专用工具,动态缩小关注区域,实现对屏幕相关区域的聚焦,从而提升视觉定位的准确性。
  3. 实验表明,GUI-Spotlight在ScreenSpot-Pro上仅用少量数据就超越了使用更多数据的其他模型,验证了其有效性。

📝 摘要(中文)

多模态大型语言模型(MLLMs)显著扩展了图形用户界面(GUI)系统的能力,使其超越了受控模拟环境,进入了跨多个平台的复杂、真实世界环境。然而,实际应用仍然受到视觉定位可靠性的限制,即文本引用到屏幕上精确元素的映射。这种限制阻碍了系统准确执行指针级别的动作,例如点击或拖动。为了解决这个问题,我们引入了GUI-Spotlight——一个为图像定位推理而训练的模型,它动态地调用多个专用工具来迭代地缩小其对屏幕相关区域的关注,从而大大提高了视觉定位的准确性。在ScreenSpot-Pro基准测试中,仅使用18.5K训练样本训练的GUI-Spotlight达到了52.8%的准确率,超过了V2P-7B(使用9.6M训练样本的50.6%)和GTA-1-7B(使用1.56M训练样本的50.1%)。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型在图形用户界面(GUI)中进行视觉定位时精度不足的问题。现有方法难以准确地将文本指令映射到屏幕上的特定元素,导致无法执行精确的点击、拖拽等操作。现有方法的痛点在于无法有效地聚焦于屏幕上与指令相关的区域,导致定位错误率较高。

核心思路:论文的核心思路是采用一种自适应迭代聚焦优化的方法。通过动态地调用多个专门设计的工具,模型能够逐步缩小其关注的屏幕区域,从而更精确地定位到目标元素。这种迭代式的聚焦过程模拟了人类在寻找目标时的行为,能够有效地过滤掉无关信息,提高定位精度。

技术框架:GUI-Spotlight的技术框架主要包含以下几个阶段:1)初始视觉理解:利用多模态模型对GUI界面进行初步理解,提取视觉特征和文本信息;2)工具选择:根据当前状态和目标,动态选择合适的专用工具,例如区域建议、目标检测等;3)迭代聚焦:利用选定的工具对图像进行处理,缩小关注区域,并更新模型的状态;4)最终定位:经过多次迭代后,模型输出最终的定位结果,即目标元素在屏幕上的坐标。

关键创新:GUI-Spotlight最重要的技术创新点在于其自适应迭代聚焦的机制。与传统的单次定位方法不同,GUI-Spotlight能够根据当前状态动态地调整其关注区域,从而更有效地利用信息,提高定位精度。此外,动态选择工具的机制也使得模型能够灵活地应对不同的场景和任务。

关键设计:GUI-Spotlight的关键设计包括:1)专用工具的设计:针对不同的定位任务,设计了多种专用工具,例如用于快速定位的区域建议工具,用于精确识别的目标检测工具等;2)工具选择策略:采用强化学习等方法,训练模型学习如何根据当前状态选择合适的工具;3)迭代停止条件:设计合理的迭代停止条件,避免过度聚焦或欠聚焦。

📊 实验亮点

GUI-Spotlight在ScreenSpot-Pro基准测试中取得了显著的成果。仅使用18.5K训练样本,GUI-Spotlight达到了52.8%的准确率,超越了使用9.6M训练样本的V2P-7B(50.6%)和使用1.56M训练样本的GTA-1-7B(50.1%)。实验结果表明,GUI-Spotlight在视觉定位精度和数据效率方面均优于现有方法,验证了其有效性。

🎯 应用场景

GUI-Spotlight具有广泛的应用前景,可用于自动化测试、辅助功能、人机交互等领域。例如,它可以用于自动化测试GUI应用程序,提高测试效率和覆盖率;可以帮助残疾人士更方便地使用计算机,提高生活质量;还可以用于开发更智能的人机交互界面,提高用户体验。未来,该技术有望应用于更复杂的场景,例如跨平台GUI自动化、虚拟现实GUI交互等。

📄 摘要(原文)

Multimodal large language models (MLLMs) have markedly expanded the competence of graphical user-interface (GUI) systems, propelling them beyond controlled simulations into complex, real-world environments across diverse platforms. However, practical usefulness is still bounded by the reliability of visual grounding, i.e., mapping textual references to exact on-screen elements. This limitation prevents the system from accurately performing pointer-level actions such as clicking or dragging. To address it, we introduce GUI-Spotlight -- a model trained for image-grounded reasoning that dynamically invokes multiple specialized tools to iteratively narrow its focus to the relevant region of the screen, thereby substantially improving visual grounding accuracy. On the ScreenSpot-Pro benchmark, GUI-Spotlight trained with only 18.5K training samples achieves 52.8\% accuracy, surpassing V2P-7B (50.6\% with 9.6M training samples) and GTA-1-7B (50.1\% with 1.56M training samples).