HippoCamp: Benchmarking Contextual Agents on Personal Computers
作者: Zhe Yang, Shulin Tian, Kairui Hu, Shuai Liu, Hoang-Nhat Nguyen, Yichi Zhang, Zujin Guo, Mengying Yu, Zinan Zhang, Jingkang Yang, Chen Change Loy, Ziwei Liu
分类: cs.AI, cs.CV
发布日期: 2026-04-01
备注: Project Page: https://hippocamp-ai.github.io/
💡 一句话要点
HippoCamp:用于评估个人电脑上上下文感知Agent的新基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent基准 多模态学习 上下文感知 个人文件管理 用户画像
📋 核心要点
- 现有Agent基准缺乏在用户个性化环境下的评估,无法有效模拟真实用户场景下的文件管理任务。
- HippoCamp构建了基于真实用户画像的设备级文件系统,包含多模态数据,用于评估Agent的上下文感知推理能力。
- 实验表明,现有MLLM和Agent方法在HippoCamp上表现不佳,尤其是在长程检索和跨模态推理方面,暴露了现有方法的局限性。
📝 摘要(中文)
本文提出了HippoCamp,一个新的基准,旨在评估Agent在多模态文件管理方面的能力。与现有侧重于通用环境中的Web交互、工具使用或软件自动化等任务的Agent基准不同,HippoCamp在以用户为中心的环境中评估Agent,以模拟个体用户画像,并在海量个人文件中搜索以进行上下文感知的推理。该基准在真实世界用户画像上实例化设备级文件系统,包含超过2K个真实世界文件,总计42.4GB的数据。基于原始文件,我们构建了581个QA对,以评估Agent在搜索、证据感知和多步骤推理方面的能力。为了便于细粒度分析,我们提供了46.1K个密集标注的结构化轨迹,用于逐步故障诊断。我们在HippoCamp上评估了各种最先进的多模态大型语言模型(MLLM)和Agent方法。综合实验表明存在显著的性能差距:即使是最先进的商业模型在用户画像方面的准确率也仅为48.3%,尤其是在密集个人文件系统中的长程检索和跨模态推理方面表现不佳。此外,我们的逐步故障诊断表明,多模态感知和证据 grounding 是主要瓶颈。最终,HippoCamp揭示了当前Agent在现实的、以用户为中心的环境中的关键局限性,并为开发下一代个人AI助手提供了坚实的基础。
🔬 方法详解
问题定义:现有Agent基准主要关注通用环境下的任务,忽略了用户个性化环境,无法有效评估Agent在个人文件管理等实际应用中的能力。现有方法在处理大规模、多模态个人文件时,面临长程依赖、跨模态推理和用户画像理解等挑战,导致性能显著下降。
核心思路:HippoCamp的核心思路是构建一个更贴近真实用户场景的基准,通过模拟用户画像和设备级文件系统,评估Agent在上下文感知下的文件管理能力。这种设计能够更真实地反映Agent在实际应用中的性能,并为未来的研究提供更具挑战性的测试平台。
技术框架:HippoCamp基准主要包含以下几个部分:1) 基于真实用户画像构建的设备级文件系统,包含多种模态的数据;2) 基于文件系统构建的QA数据集,用于评估Agent的搜索、证据感知和多步骤推理能力;3) 密集标注的结构化轨迹,用于细粒度的故障诊断。整体流程是,Agent接收QA数据集中的问题,在文件系统中搜索相关信息,并给出答案。
关键创新:HippoCamp的关键创新在于其用户中心的设计理念和设备级文件系统的构建。与现有基准不同,HippoCamp更加关注Agent在真实用户环境下的表现,并提供了更丰富、更复杂的数据集。此外,密集标注的结构化轨迹为故障诊断提供了更详细的信息,有助于研究人员更好地理解Agent的行为。
关键设计:HippoCamp的关键设计包括:1) 文件系统的规模和多样性,确保能够覆盖各种用户场景;2) QA数据集的难度和覆盖范围,确保能够充分评估Agent的能力;3) 结构化轨迹的标注粒度,确保能够提供足够详细的故障诊断信息。具体参数设置和网络结构取决于被评估的Agent模型。
📊 实验亮点
实验结果表明,即使是最先进的商业MLLM在HippoCamp上的用户画像准确率也仅为48.3%,远低于通用基准上的表现。这表明现有Agent在处理大规模、多模态个人文件时存在显著的性能瓶颈,尤其是在长程检索和跨模态推理方面。HippoCamp的逐步故障诊断进一步揭示了多模态感知和证据 grounding 是主要瓶颈。
🎯 应用场景
HippoCamp的研究成果可应用于开发更智能的个人AI助手,帮助用户高效管理个人文件、快速检索所需信息,并提供个性化的服务。该基准的提出将推动Agent在用户个性化环境下的研究,促进相关技术在智能办公、智能家居等领域的应用,提升用户体验。
📄 摘要(原文)
We present HippoCamp, a new benchmark designed to evaluate agents' capabilities on multimodal file management. Unlike existing agent benchmarks that focus on tasks like web interaction, tool use, or software automation in generic settings, HippoCamp evaluates agents in user-centric environments to model individual user profiles and search massive personal files for context-aware reasoning. Our benchmark instantiates device-scale file systems over real-world profiles spanning diverse modalities, comprising 42.4 GB of data across over 2K real-world files. Building upon the raw files, we construct 581 QA pairs to assess agents' capabilities in search, evidence perception, and multi-step reasoning. To facilitate fine-grained analysis, we provide 46.1K densely annotated structured trajectories for step-wise failure diagnosis. We evaluate a wide range of state-of-the-art multimodal large language models (MLLMs) and agentic methods on HippoCamp. Our comprehensive experiments reveal a significant performance gap: even the most advanced commercial models achieve only 48.3% accuracy in user profiling, struggling particularly with long-horizon retrieval and cross-modal reasoning within dense personal file systems. Furthermore, our step-wise failure diagnosis identifies multimodal perception and evidence grounding as the primary bottlenecks. Ultimately, HippoCamp exposes the critical limitations of current agents in realistic, user-centric environments and provides a robust foundation for developing next-generation personal AI assistants.