See and Remember: A Multimodal Agent for Web Traversal

📄 arXiv: 2603.02626v1 📥 PDF

作者: Xinjun Wang, Shengyao Wang, Aimin Zhou, Hao Hao

分类: cs.AI

发布日期: 2026-03-03

🔗 代码/项目: GITHUB


💡 一句话要点

提出V-GEMS,解决LLM智能体Web导航中的空间迷失和循环问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web导航 多模态智能体 视觉基础 显式记忆 大型语言模型

📋 核心要点

  1. 现有基于LLM的Web导航智能体在复杂视觉环境中易迷失,难以维持长期上下文,导致导航循环。
  2. V-GEMS通过视觉基础解析歧义元素,并使用显式记忆栈跟踪状态,构建遍历路径地图。
  3. 实验表明,V-GEMS在Web导航任务中显著优于WebWalker基线,性能提升达28.7%。

📝 摘要(中文)

本文提出了一种通用的V-GEMS(视觉基础和显式记忆系统)架构,这是一种鲁棒的多模态智能体,专为精确且有弹性的Web遍历而设计。现有的基于大型语言模型(LLM)的智能体在自主Web导航中,常常难以应对复杂的视觉环境和维持长期上下文,容易出现空间迷失和导航循环。V-GEMS集成了视觉基础以解决歧义交互元素,并引入了带有状态跟踪的显式记忆栈。这种双重机制使智能体能够维护其遍历路径的结构化地图,从而实现有效的回溯并防止深度导航任务中的循环失败。此外,本文还引入了一个可更新的动态基准,以严格评估适应性。实验表明,V-GEMS显著优于WebWalker基线,实现了28.7%的性能提升。

🔬 方法详解

问题定义:现有基于大型语言模型的Web导航智能体,在面对复杂的Web环境时,容易出现空间迷失和导航循环问题。它们难以准确识别和定位交互元素,并且缺乏有效的长期记忆机制来记录和回溯之前的状态,导致在深度导航任务中表现不佳。

核心思路:V-GEMS的核心思路是结合视觉信息和显式记忆,构建一个能够感知环境、记住历史状态并进行有效回溯的智能体。通过视觉基础(Visual Grounding)来准确识别Web页面上的交互元素,并通过显式记忆栈(Explicit Memory Stack)来记录和跟踪导航路径,从而避免循环和迷失。

技术框架:V-GEMS的整体架构包含以下几个主要模块:1) 视觉感知模块:负责解析Web页面的视觉信息,识别交互元素。2) 语言模型模块:基于LLM,负责生成导航指令。3) 显式记忆模块:维护一个记忆栈,记录访问过的页面状态和执行的操作。4) 决策模块:根据当前页面信息和记忆栈中的历史信息,决定下一步的操作。智能体通过循环执行以下步骤进行Web遍历:观察当前页面 -> 视觉感知 -> 语言模型生成指令 -> 执行指令 -> 更新记忆栈。

关键创新:V-GEMS的关键创新在于其双重机制:视觉基础和显式记忆栈。视觉基础解决了交互元素的歧义性问题,使得智能体能够更准确地理解Web页面的内容。显式记忆栈则提供了一种结构化的方式来记录和回溯导航路径,避免了循环和迷失。与现有方法相比,V-GEMS更加关注视觉信息的利用和长期记忆的维护。

关键设计:视觉基础模块可能使用了目标检测或分割模型来识别Web页面上的交互元素,例如按钮、链接等。显式记忆栈的设计需要考虑如何有效地存储和检索历史状态信息,例如可以使用页面截图的特征向量或者文本描述来表示页面状态。记忆栈的更新策略也需要仔细设计,例如可以采用先进先出(FIFO)或最近最少使用(LRU)等策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,V-GEMS在Web导航任务中显著优于WebWalker基线,取得了28.7%的性能提升。这一结果验证了视觉基础和显式记忆栈的有效性,表明V-GEMS能够更准确地理解Web页面内容,并有效地避免循环和迷失。

🎯 应用场景

V-GEMS技术可应用于自动化Web任务,如信息检索、在线购物、数据抓取等。它能提升智能体在复杂Web环境中的导航能力,减少人工干预,提高任务完成效率。未来,该技术有望扩展到更广泛的机器人导航和人机交互领域,实现更智能、更自主的系统。

📄 摘要(原文)

Autonomous web navigation requires agents to perceive complex visual environments and maintain long-term context, yet current Large Language Model (LLM) based agents often struggle with spatial disorientation and navigation loops. In this paper, we propose generally applicable V-GEMS(Visual Grounding and Explicit Memory System), a robust multimodal agent architecture designed for precise and resilient web traversal. Our agent integrates visual grounding to resolve ambiguous interactive elements and introduces an explicit memory stack with state tracking. This dual mechanism allows the agent to maintain a structured map of its traversal path, enabling valid backtracking and preventing cyclical failures in deep navigation tasks. We also introduce an updatable dynamic benchmark to rigorously evaluate adaptability. Experiments show V-GEMS significantly dominates the WebWalker baseline, achieving a substantial 28.7% performance gain. Code is available at https://github.com/Vaultttttttttttt/V-GEMS.