TimeWarp: Evaluating Web Agents by Revisiting the Past
作者: Md Farhan Ishmam, Kenneth Marino
分类: cs.AI, cs.CL, cs.CV, cs.LG
发布日期: 2026-03-05
💡 一句话要点
TimeWarp:通过回溯历史评估Web代理的泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: Web代理 泛化能力 行为克隆 计划蒸馏 鲁棒性 TimeWarp基准 Web导航
📋 核心要点
- 现有Web代理在固定Web环境表现良好,但缺乏对Web设计演变的泛化能力,导致在真实动态Web环境中性能下降。
- TimeTraj通过计划蒸馏,从多个Web版本收集轨迹,训练代理学习跨版本泛化的能力,提升在变化Web环境中的鲁棒性。
- 实验表明,TimeTraj显著提升了Web代理在TimeWarp基准上的性能,Qwen-3 4B和Llama-3.1 8B模型分别提升至37.7%和27.0%。
📝 摘要(中文)
当前Web代理在基准测试上的改进引发了一个问题:当Web发生变化时,如今的代理是否表现依旧出色?我们引入了TimeWarp,一个通过模拟UI、设计和布局各异的容器化环境来模拟不断发展的Web的基准。TimeWarp包含三个Web环境,每个环境有六个UI版本,涵盖了互联网的不同时代,并配有一组需要不同形式Web导航的复杂、现实的任务。我们的实验揭示了Web代理对变化的脆弱性以及行为克隆(BC)在单版本轨迹上的局限性。为了解决这个问题,我们提出了一种简单而有效的算法TimeTraj,它使用计划蒸馏来收集跨多个版本的轨迹。通过使用我们的BC变体在教师rollout上训练代理,我们取得了显著的性能提升:Qwen-3 4B模型从20.4%提升到37.7%,Llama-3.1 8B模型从0%提升到27.0%。我们希望我们的工作能够帮助研究人员研究跨Web设计的泛化,并开启一种收集计划而非轨迹的新范例,从而提高Web代理的鲁棒性。
🔬 方法详解
问题定义:现有Web代理的训练通常基于静态的Web环境,缺乏对Web UI、设计和布局变化的适应性。当Web环境发生变化时,这些代理的性能会显著下降。行为克隆(BC)等方法在单版本轨迹上的训练无法有效解决这一问题,因为它们无法学习到跨不同Web版本的泛化能力。
核心思路:TimeTraj的核心思路是通过计划蒸馏,从多个不同版本的Web环境中收集轨迹,并利用这些轨迹训练代理。这种方法旨在使代理能够学习到与Web版本无关的通用导航策略,从而提高其在动态Web环境中的鲁棒性。通过模仿在不同Web版本上表现良好的“教师”代理的计划,学生代理可以学习到更具泛化能力的策略。
技术框架:TimeTraj包含以下主要步骤:1) 构建TimeWarp基准,包含多个Web环境和每个环境的多个UI版本。2) 使用“教师”代理在TimeWarp的多个版本上执行任务,并记录其计划(例如,点击链接的序列)。3) 使用行为克隆(BC)的变体,在教师代理的计划轨迹上训练“学生”代理。4) 在TimeWarp基准上评估学生代理的性能,以衡量其泛化能力。
关键创新:TimeTraj的关键创新在于其利用计划蒸馏来收集跨多个Web版本的轨迹。与传统的行为克隆方法不同,TimeTraj不是简单地模仿单个Web版本上的行为,而是学习在不同Web版本上执行任务的通用计划。这种方法使得代理能够更好地适应Web环境的变化,从而提高其鲁棒性。
关键设计:TimeTraj的关键设计包括:1) TimeWarp基准的设计,它包含了多个Web环境和每个环境的多个UI版本,以模拟真实Web环境的多样性。2) 教师代理的选择,通常选择在各个Web版本上表现良好的模型。3) 行为克隆变体的设计,用于在教师代理的计划轨迹上训练学生代理。具体的损失函数和网络结构的选择取决于具体的任务和代理架构。
📊 实验亮点
TimeTraj在TimeWarp基准上取得了显著的性能提升。对于Qwen-3 4B模型,性能从20.4%提升到37.7%,提升幅度为17.3%。对于Llama-3.1 8B模型,性能从0%提升到27.0%,提升幅度为27.0%。这些结果表明,TimeTraj能够有效地提高Web代理在变化Web环境中的鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于提升Web代理在真实动态Web环境中的性能,例如智能助手、自动化测试工具和信息检索系统。通过提高Web代理的鲁棒性和泛化能力,可以使其更好地适应Web环境的变化,从而提供更可靠和高效的服务。此外,该方法还可以应用于其他需要跨环境泛化的任务,例如机器人导航和游戏AI。
📄 摘要(原文)
The improvement of web agents on current benchmarks raises the question: Do today's agents perform just as well when the web changes? We introduce TimeWarp, a benchmark that emulates the evolving web using containerized environments that vary in UI, design, and layout. TimeWarp consists of three web environments, each with six UI versions spanning different eras of the internet, paired with a set of complex, realistic tasks requiring different forms of web navigation. Our experiments reveal web agents' vulnerability to changes and the limitations of behavior cloning (BC) on single-version trajectories. To address this, we propose TimeTraj, a simple yet effective algorithm that uses plan distillation to collect trajectories across multiple versions. By training agents on teacher rollouts using our BC-variant, we achieve substantial performance gains: $20.4\%\rightarrow37.7\%$ for Qwen-3 4B and $0\%\rightarrow27.0\%$ for Llama-3.1 8B models. We hope our work helps researchers study generalization across web designs and unlock a new paradigm for collecting plans rather than trajectories, thereby improving the robustness of web agents.