AI Agents for Web Testing: A Case Study in the Wild

📄 arXiv: 2509.05197v1 📥 PDF

作者: Naimeng Ye, Xiao Yu, Ruize Xu, Tianyi Peng, Zhou Yu

分类: cs.SE, cs.AI, cs.HC

发布日期: 2025-09-05


💡 一句话要点

提出WebProber,利用AI Agent进行Web测试,发现传统方法难以检测的可用性问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI Agent Web测试 自动化测试 用户体验 可用性测试

📋 核心要点

  1. 传统Web测试侧重代码覆盖率和负载测试,难以捕捉复杂用户行为,导致许多可用性问题未被发现。
  2. WebProber利用大型语言模型和AI Agent,模拟人类与网站的交互,自主探索并识别可用性问题。
  3. 在120个学术网站的案例研究中,WebProber发现了29个可用性问题,优于传统工具。

📝 摘要(中文)

本文提出了一种基于AI Agent的Web测试框架WebProber,旨在解决传统Web测试方法在捕捉复杂用户行为和检测可用性问题方面的不足。WebProber通过模拟真实用户与网站的交互,自主探索网站,识别错误和可用性问题,并生成易于理解的报告。通过对120个学术个人网站的案例研究评估,WebProber发现了29个可用性问题,其中许多问题是传统工具未能检测到的。研究结果表明,基于Agent的测试是一个有前景的方向,并为开发下一代以用户为中心的测试框架指明了方向。

🔬 方法详解

问题定义:论文旨在解决传统Web测试方法在检测用户体验和可用性问题方面的局限性。现有方法主要关注代码覆盖率和负载,忽略了用户行为的复杂性和主观性,导致许多影响用户体验的问题无法被有效识别。这些问题包括导航困难、信息架构混乱、交互设计不合理等。

核心思路:WebProber的核心思路是利用AI Agent模拟真实用户的行为,自主地与网站进行交互,从而发现潜在的可用性问题。通过赋予Agent类似人类的感知和决策能力,使其能够像用户一样浏览、搜索、点击和填写表单,从而更全面地评估网站的用户体验。这种方法能够弥补传统测试方法的不足,发现更多隐藏的可用性问题。

技术框架:WebProber的整体框架包含以下几个主要模块:1) 环境设置:初始化Agent的运行环境,包括浏览器、操作系统等。2) 目标设定:根据网站的类型和功能,设定Agent的测试目标,例如“查找联系方式”、“提交反馈”等。3) 自主探索:Agent根据设定的目标,自主地浏览网站,并与网站进行交互。4) 问题识别:Agent在探索过程中,利用内置的规则和模型,识别潜在的可用性问题。5) 报告生成:Agent将发现的问题整理成易于理解的报告,并提供相应的截图和描述。

关键创新:WebProber的关键创新在于将AI Agent引入Web测试领域,使其能够像真实用户一样与网站进行交互。与传统的自动化测试工具相比,WebProber具有更强的自主性和灵活性,能够更好地模拟用户的行为,从而发现更多隐藏的可用性问题。此外,WebProber还能够生成易于理解的报告,方便开发人员快速定位和解决问题。

关键设计:WebProber的关键设计包括:1) Agent的感知模型:Agent需要具备感知网页内容的能力,例如识别文本、图像、链接等。这可以通过使用OCR、图像识别等技术来实现。2) Agent的决策模型:Agent需要具备决策能力,例如选择点击哪个链接、填写哪个表单等。这可以通过使用强化学习、规则引擎等技术来实现。3) 问题识别规则:WebProber内置了一系列问题识别规则,用于判断网站是否存在可用性问题。这些规则可以基于用户体验原则、Web标准等进行设计。

📊 实验亮点

WebProber在120个学术个人网站的案例研究中,成功发现了29个传统工具未能检测到的可用性问题。这些问题涵盖了导航、信息架构、交互设计等多个方面,证明了基于Agent的Web测试方法在发现隐藏问题方面的优势。该实验结果表明,WebProber能够有效提升Web应用的质量和用户体验。

🎯 应用场景

该研究成果可应用于各种Web应用的自动化测试,尤其适用于用户体验要求高的场景,如电商平台、在线教育、政务网站等。通过WebProber,开发者可以更早地发现并修复可用性问题,提升用户满意度,降低用户流失率。未来,该技术还可扩展到移动应用测试、语音交互测试等领域。

📄 摘要(原文)

Automated web testing plays a critical role in ensuring high-quality user experiences and delivering business value. Traditional approaches primarily focus on code coverage and load testing, but often fall short of capturing complex user behaviors, leaving many usability issues undetected. The emergence of large language models (LLM) and AI agents opens new possibilities for web testing by enabling human-like interaction with websites and a general awareness of common usability problems. In this work, we present WebProber, a prototype AI agent-based web testing framework. Given a URL, WebProber autonomously explores the website, simulating real user interactions, identifying bugs and usability issues, and producing a human-readable report. We evaluate WebProber through a case study of 120 academic personal websites, where it uncovered 29 usability issues--many of which were missed by traditional tools. Our findings highlight agent-based testing as a promising direction while outlining directions for developing next-generation, user-centered testing frameworks.