\textsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding

作者: Bin Lei, Nuo Xu, Ali Payani, Mingyi Hong, Chunhua Liao, Yu Cao, Caiwen Ding

分类: cs.CV, cs.AI

发布日期: 2025-10-05

💡 一句话要点

GUI-Spotlight：自适应迭代聚焦优化，增强GUI视觉定位

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI视觉定位 多模态大语言模型 迭代聚焦 自适应工具选择 人机交互 自动化测试

📋 核心要点

现有MLLM在GUI视觉定位中精度不足，难以实现精确的点击和拖拽等指针级操作，限制了其在真实环境中的应用。
GUI-Spotlight通过迭代调用专用工具，动态缩小关注区域，实现对屏幕相关区域的聚焦，从而提升视觉定位的准确性。
实验表明，GUI-Spotlight在ScreenSpot-Pro上仅用少量数据就超越了使用更多数据的其他模型，验证了其有效性。

📝 摘要（中文）

多模态大型语言模型（MLLMs）显著扩展了图形用户界面（GUI）系统的能力，使其超越了受控模拟环境，进入了跨多个平台的复杂、真实世界环境。然而，实际应用仍然受到视觉定位可靠性的限制，即文本引用到屏幕上精确元素的映射。这种限制阻碍了系统准确执行指针级别的动作，例如点击或拖动。为了解决这个问题，我们引入了GUI-Spotlight——一个为图像定位推理而训练的模型，它动态地调用多个专用工具来迭代地缩小其对屏幕相关区域的关注，从而大大提高了视觉定位的准确性。在ScreenSpot-Pro基准测试中，仅使用18.5K训练样本训练的GUI-Spotlight达到了52.8%的准确率，超过了V2P-7B（使用9.6M训练样本的50.6%）和GTA-1-7B（使用1.56M训练样本的50.1%）。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型在图形用户界面（GUI）中进行视觉定位时精度不足的问题。现有方法难以准确地将文本指令映射到屏幕上的特定元素，导致无法执行精确的点击、拖拽等操作。现有方法的痛点在于无法有效地聚焦于屏幕上与指令相关的区域，导致定位错误率较高。

核心思路：论文的核心思路是采用一种自适应迭代聚焦优化的方法。通过动态地调用多个专门设计的工具，模型能够逐步缩小其关注的屏幕区域，从而更精确地定位到目标元素。这种迭代式的聚焦过程模拟了人类在寻找目标时的行为，能够有效地过滤掉无关信息，提高定位精度。

技术框架：GUI-Spotlight的技术框架主要包含以下几个阶段：1）初始视觉理解：利用多模态模型对GUI界面进行初步理解，提取视觉特征和文本信息；2）工具选择：根据当前状态和目标，动态选择合适的专用工具，例如区域建议、目标检测等；3）迭代聚焦：利用选定的工具对图像进行处理，缩小关注区域，并更新模型的状态；4）最终定位：经过多次迭代后，模型输出最终的定位结果，即目标元素在屏幕上的坐标。

关键创新：GUI-Spotlight最重要的技术创新点在于其自适应迭代聚焦的机制。与传统的单次定位方法不同，GUI-Spotlight能够根据当前状态动态地调整其关注区域，从而更有效地利用信息，提高定位精度。此外，动态选择工具的机制也使得模型能够灵活地应对不同的场景和任务。

关键设计：GUI-Spotlight的关键设计包括：1）专用工具的设计：针对不同的定位任务，设计了多种专用工具，例如用于快速定位的区域建议工具，用于精确识别的目标检测工具等；2）工具选择策略：采用强化学习等方法，训练模型学习如何根据当前状态选择合适的工具；3）迭代停止条件：设计合理的迭代停止条件，避免过度聚焦或欠聚焦。

📊 实验亮点

GUI-Spotlight在ScreenSpot-Pro基准测试中取得了显著的成果。仅使用18.5K训练样本，GUI-Spotlight达到了52.8%的准确率，超越了使用9.6M训练样本的V2P-7B（50.6%）和使用1.56M训练样本的GTA-1-7B（50.1%）。实验结果表明，GUI-Spotlight在视觉定位精度和数据效率方面均优于现有方法，验证了其有效性。

🎯 应用场景

GUI-Spotlight具有广泛的应用前景，可用于自动化测试、辅助功能、人机交互等领域。例如，它可以用于自动化测试GUI应用程序，提高测试效率和覆盖率；可以帮助残疾人士更方便地使用计算机，提高生活质量；还可以用于开发更智能的人机交互界面，提高用户体验。未来，该技术有望应用于更复杂的场景，例如跨平台GUI自动化、虚拟现实GUI交互等。

📄 摘要（原文）

Multimodal large language models (MLLMs) have markedly expanded the competence of graphical user-interface (GUI) systems, propelling them beyond controlled simulations into complex, real-world environments across diverse platforms. However, practical usefulness is still bounded by the reliability of visual grounding, i.e., mapping textual references to exact on-screen elements. This limitation prevents the system from accurately performing pointer-level actions such as clicking or dragging. To address it, we introduce GUI-Spotlight -- a model trained for image-grounded reasoning that dynamically invokes multiple specialized tools to iteratively narrow its focus to the relevant region of the screen, thereby substantially improving visual grounding accuracy. On the ScreenSpot-Pro benchmark, GUI-Spotlight trained with only 18.5K training samples achieves 52.8\% accuracy, surpassing V2P-7B (50.6\% with 9.6M training samples) and GTA-1-7B (50.1\% with 1.56M training samples).

\textsc{GUI-Spotlight}: Adaptive Iterative Focus Refinement for Enhanced GUI Visual Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册