Ego-Grounding for Personalized Question-Answering in Egocentric Videos
作者: Junbin Xiao, Shenglang Zhang, Pengxiang Zhu, Angela Yao
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-04-02
备注: To appear at CVPR'26
🔗 代码/项目: GITHUB
💡 一句话要点
提出MyEgo数据集,用于评估多模态大语言模型在以自我为中心的视频中进行个性化问答的能力。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自我中心视频 个性化问答 多模态大语言模型 VideoQA 长程记忆
📋 核心要点
- 现有的多模态大语言模型在理解以自我为中心的视频中相机佩戴者的能力方面存在不足,尤其是在个性化问答场景下。
- 论文提出了MyEgo数据集,旨在评估MLLM理解、记忆和推理相机佩戴者的能力,从而推动自我中心定位和长程记忆的研究。
- 实验结果表明,现有MLLM在MyEgo数据集上表现不佳,即使是大型模型和显式推理也未能显著提升性能,突显了自我中心定位的挑战。
📝 摘要(中文)
本文首次系统性地分析了多模态大语言模型(MLLMs)在个性化问答中所需的自我中心定位能力,即理解以自我为中心的视频中相机佩戴者的能力。为此,我们推出了MyEgo,这是第一个以自我为中心的VideoQA数据集,旨在评估MLLM理解、记忆和推理相机佩戴者的能力。MyEgo包含541个长视频和5K个个性化问题,询问关于“我的东西”、“我的活动”和“我的过去”。基准测试表明,各种MLLM,包括开源与专有、思考与非思考、小规模与大规模,都在MyEgo上表现不佳。顶级的闭源和开源模型(例如,GPT-5和Qwen3-VL)的准确率分别仅为~46%和36%,分别落后于人类表现近40%和50%。令人惊讶的是,显式推理和模型缩放均未产生一致的改进。当明确提供相关证据时,模型性能有所提高,但随着时间的推移,增益下降,表明在跟踪和记住“我”和“我的过去”方面存在局限性。这些发现共同强调了自我中心定位和长程记忆在实现以自我为中心的个性化问答中的关键作用。我们希望MyEgo和我们的分析能够促进这些领域在以自我为中心的个性化辅助方面的进一步发展。数据和代码可在https://github.com/Ryougetsu3606/MyEgo上找到。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在以自我为中心的视频中进行个性化问答时,缺乏对相机佩戴者(即“自我”)的理解和记忆的问题。现有方法难以有效利用视频信息来回答关于“我的东西”、“我的活动”和“我的过去”等个性化问题,无法准确跟踪和推理视频中“自我”的行为和状态。
核心思路:论文的核心思路是通过构建一个专门的以自我为中心的VideoQA数据集MyEgo,来系统性地评估和分析MLLMs在自我中心定位方面的能力。通过设计包含长视频和个性化问题的MyEgo,可以更全面地考察模型在理解、记忆和推理相机佩戴者方面的表现。
技术框架:论文的主要技术框架围绕MyEgo数据集的构建和对现有MLLMs的基准测试展开。数据集包含541个长视频和5K个个性化问题,涵盖“我的东西”、“我的活动”和“我的过去”三个方面。论文使用各种MLLM,包括开源和闭源模型,进行实验,并分析其在MyEgo上的表现。
关键创新:论文的关键创新在于提出了MyEgo数据集,这是第一个专门用于评估MLLMs在以自我为中心的视频中进行个性化问答能力的数据集。与现有VideoQA数据集相比,MyEgo更侧重于考察模型对相机佩戴者的理解和记忆,从而更有效地评估自我中心定位能力。
关键设计:MyEgo数据集的关键设计包括:1) 长视频:模拟真实场景,需要模型具备长程记忆能力;2) 个性化问题:考察模型对相机佩戴者的理解和推理能力;3) 多样化问题类型:涵盖“我的东西”、“我的活动”和“我的过去”三个方面,全面评估模型性能。论文没有涉及具体的模型结构或损失函数设计,而是侧重于数据集的构建和基准测试。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是顶级的闭源模型(GPT-5)和开源模型(Qwen3-VL)在MyEgo数据集上的准确率分别仅为46%和36%,远低于人类水平(分别相差40%和50%)。显式推理和模型缩放未能带来显著的性能提升,表明现有MLLM在自我中心定位和长程记忆方面存在显著不足。
🎯 应用场景
该研究成果可应用于开发更智能的以人为中心的个性化助手,例如智能眼镜或可穿戴设备,能够理解用户的意图、记忆用户的行为,并提供定制化的信息和服务。未来的应用包括:个性化健康监测、智能家居控制、以及增强现实导航等。
📄 摘要(原文)
We present the first systematic analysis of multimodal large language models (MLLMs) in personalized question-answering requiring ego-grounding - the ability to understand the camera-wearer in egocentric videos. To this end, we introduce MyEgo, the first egocentric VideoQA dataset designed to evaluate MLLMs' ability to understand, remember, and reason about the camera wearer. MyEgo comprises 541 long videos and 5K personalized questions asking about "my things", "my activities", and "my past". Benchmarking reveals that competitive MLLMs across variants, including open-source vs. proprietary, thinking vs. non-thinking, small vs. large scales all struggle on MyEgo. Top closed- and open-source models (e.g., GPT-5 and Qwen3-VL) achieve only~46% and 36% accuracy, trailing human performance by near 40% and 50% respectively. Surprisingly, neither explicit reasoning nor model scaling yield consistent improvements. Models improve when relevant evidence is explicitly provided, but gains drop over time, indicating limitations in tracking and remembering "me" and "my past". These findings collectively highlight the crucial role of ego-grounding and long-range memory in enabling personalized QA in egocentric videos. We hope MyEgo and our analyses catalyze further progress in these areas for egocentric personalized assistance. Data and code are available at https://github.com/Ryougetsu3606/MyEgo