OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents
作者: Mariya Davydova, Daniel Jeffries, Patrick Barker, Arturo Márquez Flores, Sinéad Ryan
分类: cs.AI
发布日期: 2025-05-06
🔗 代码/项目: GITHUB
💡 一句话要点
提出OSUniverse基准以评估多模态GUI导航AI代理的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态任务 GUI导航 AI代理 性能评估 自动验证
📋 核心要点
- 现有的GUI导航AI代理在复杂任务中表现不佳,尤其是在多步骤和多应用程序的场景下。
- 本文提出的OSUniverse基准通过分级复杂度的任务,系统性地评估AI代理的导航能力,确保测试的全面性与有效性。
- 实验结果显示,当前最先进的代理在该基准下的表现未超过50%,而普通白领能够以完美准确率完成所有任务,验证了基准的有效性。
📝 摘要(中文)
本文介绍了OSUniverse,一个针对复杂多模态桌面任务的基准,旨在评估先进的GUI导航AI代理。该基准关注易用性、可扩展性、测试用例的全面覆盖和自动验证。任务分为不同复杂度,从基本的精确点击到需要灵活性和清晰思维的多步骤、多应用程序测试。在基准的第一个版本中,确保当时的最先进代理的表现不超过50%,而普通白领可以完美完成所有任务。基准可手动评分,同时引入了平均错误率低于2%的自动验证机制,为GUI导航AI代理的能力和有效性提供了可靠的自动化评估基础。
🔬 方法详解
问题定义:本文旨在解决现有GUI导航AI代理在复杂多模态任务中的评估不足,尤其是多步骤和多应用程序的场景。现有方法在这些任务中往往无法达到理想的表现,缺乏系统性评估标准。
核心思路:OSUniverse基准通过设计分级复杂度的任务,确保AI代理在执行过程中需要展现灵活性、精确性和逻辑思维。这样的设计使得基准既能评估代理的基本能力,又能挑战其在复杂场景下的表现。
技术框架:该基准的整体架构包括任务设计、评分机制和自动验证模块。任务设计分为多个复杂度等级,评分机制支持手动和自动两种方式,自动验证模块确保评分的准确性和一致性。
关键创新:OSUniverse的主要创新在于其任务的分级设计和自动验证机制。与现有方法相比,该基准提供了更全面的评估标准,确保了测试的严谨性和可靠性。
关键设计:在任务设计中,设置了不同的复杂度等级,确保最先进的代理在测试中表现不超过50%。自动验证机制的设计使得平均错误率低于2%,为评估提供了高效的支持。
📊 实验亮点
在OSUniverse基准的测试中,当前最先进的AI代理的表现未超过50%,而普通白领能够以完美准确率完成所有任务。这一结果验证了基准的有效性,并为未来的AI代理开发提供了重要参考。
🎯 应用场景
OSUniverse基准的潜在应用领域包括AI代理的开发与评估、用户界面设计优化以及人机交互研究。通过提供一个标准化的评估平台,研究人员和开发者可以更有效地比较不同AI代理的性能,推动技术进步和应用落地。
📄 摘要(原文)
In this paper, we introduce OSUniverse: a benchmark of complex, multimodal desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on ease of use, extensibility, comprehensive coverage of test cases, and automated validation. We divide the tasks in increasing levels of complexity, from basic precision clicking to multistep, multiapplication tests requiring dexterity, precision, and clear thinking from the agent. In version one of the benchmark, presented here, we have calibrated the complexity of the benchmark test cases to ensure that the SOTA (State of the Art) agents (at the time of publication) do not achieve results higher than 50%, while the average white collar worker can perform all these tasks with perfect accuracy. The benchmark can be scored manually, but we also introduce an automated validation mechanism that has an average error rate less than 2%. Therefore, this benchmark presents solid ground for fully automated measuring of progress, capabilities and the effectiveness of GUI-navigation AI agents over the short and medium-term horizon. The source code of the benchmark is available at https://github.com/agentsea/osuniverse.