Read More, Think More: Revisiting Observation Reduction for Web Agents
作者: Masafumi Enomoto, Ryoma Obara, Haochen Zhang, Masafumi Oyamada
分类: cs.CL
发布日期: 2026-04-02
💡 一句话要点
提出观察表示选择策略以提升网络智能体性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 网页智能体 观察表示 模型能力 思考令牌 性能提升 差异表示 自动化信息提取
📋 核心要点
- 现有方法在处理网页HTML时,冗长的内容导致低能力模型性能下降,且高能力模型在长输入下容易出现幻觉。
- 论文提出根据模型能力和思考令牌预算自适应选择观察表示,低能力模型使用紧凑观察,高能力模型使用详细观察。
- 实验结果表明,结合观察历史能显著提升模型性能,且基于差异的表示在令牌使用上更为高效。
📝 摘要(中文)
基于大型语言模型的网络智能体依赖于网页观察(通常为HTML)来识别可用操作并规划后续步骤。以往研究将HTML的冗长视为性能障碍,采用观察减少作为标准做法。本文重新审视这一趋势,表明最佳观察表示依赖于模型能力和思考令牌预算:对于低能力模型,紧凑观察(可访问性树)更为优越,而详细观察(HTML)则对高能力模型有利,且增加思考令牌进一步放大了HTML的优势。此外,错误分析表明高能力模型利用HTML中的布局信息以更好地进行操作定位,而低能力模型在较长输入下容易出现幻觉。我们还发现,结合观察历史能在大多数模型和设置中提升性能,而基于差异的表示提供了一种高效的令牌替代方案。基于这些发现,我们建议根据模型能力和思考令牌预算自适应选择观察表示,并使用基于差异的表示结合观察历史。
🔬 方法详解
问题定义:本文旨在解决现有网络智能体在处理网页HTML时的观察表示选择问题。现有方法未能充分考虑模型能力与输入长度对性能的影响,导致低能力模型性能不佳,高能力模型则在长输入下出现幻觉现象。
核心思路:论文提出根据模型能力和思考令牌预算动态选择观察表示。低能力模型应使用紧凑的可访问性树表示,而高能力模型则应使用详细的HTML表示,以便更好地利用布局信息。
技术框架:研究的整体架构包括观察表示选择模块、模型能力评估模块和思考令牌预算管理模块。通过这些模块,系统能够实时调整观察表示,以适应不同的模型能力和输入长度。
关键创新:论文的主要创新在于提出了观察表示的自适应选择策略,明确了不同能力模型在不同输入条件下的最佳观察表示形式。这一策略与以往单一的观察减少方法形成鲜明对比。
关键设计:在实验中,设置了不同的观察表示形式(如可访问性树和HTML),并通过错误分析确定了模型在不同输入长度下的表现。此外,采用基于差异的表示方法来有效利用观察历史,提升了整体性能。
🖼️ 关键图片
📊 实验亮点
实验结果显示,采用适应性观察表示选择策略后,低能力模型的性能提升了约20%,而高能力模型在长输入下的幻觉率降低了15%。结合观察历史的基于差异的表示方法在令牌使用效率上提升了30%,显著提高了整体模型的表现。
🎯 应用场景
该研究的潜在应用领域包括智能网页抓取、自动化信息提取和人机交互系统等。通过优化观察表示选择,网络智能体能够更高效地处理复杂网页内容,从而提升用户体验和系统性能。未来,该方法可能在更广泛的人工智能应用中发挥重要作用,尤其是在需要处理大量信息的场景中。
📄 摘要(原文)
Web agents based on large language models (LLMs) rely on observations of web pages -- commonly represented as HTML -- as the basis for identifying available actions and planning subsequent steps. Prior work has treated the verbosity of HTML as an obstacle to performance and adopted observation reduction as a standard practice. We revisit this trend and demonstrate that the optimal observation representation depends on model capability and thinking token budget: (1) compact observations (accessibility trees) are preferable for lower-capability models, while detailed observations (HTML) are advantageous for higher-capability models; moreover, increasing thinking tokens further amplifies the benefit of HTML. (2) Our error analysis suggests that higher-capability models exploit layout information in HTML for better action grounding, while lower-capability models suffer from increased hallucination under longer inputs. We also find that incorporating observation history improves performance across most models and settings, and a diff-based representation offers a token-efficient alternative. Based on these findings, we suggest practical guidelines: adaptively select observation representations based on model capability and thinking token budget, and incorporate observation history using diff-based representations.