Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning
作者: Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish
分类: cs.CV, cs.HC
发布日期: 2026-03-04
备注: 14 pages, 4 figures, 3 tables, plus supplementary material
💡 一句话要点
提出基于注视稳定性和瞳孔新颖性的双重标准框架策展方法,用于高效的以自我为中心的学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 以自我为中心学习 帧策展 眼动追踪 注视稳定性 瞳孔反应 数据压缩 活动识别
📋 核心要点
- 以自我为中心的视频流包含大量冗余和低质量帧,对可穿戴设备的存储和电池造成压力。
- 利用眼动追踪头显提供的注视稳定性和瞳孔反应信息,设计双重标准帧策展器。
- 实验表明,该方法在10%预算下匹配完整视频流的分类性能,且注视和瞳孔信息对不同任务有互补作用。
📝 摘要(中文)
本文提出了一种用于高效的以自我为中心学习的双重标准框架策展方法。随着可穿戴设备上的常时自拍摄像头日益普及,由此产生的视频流充斥着冗余和低质量的帧。考虑到可穿戴设备的存储和电池限制,选择哪些帧保留与如何从中学习同等重要。研究人员观察到,现代眼动追踪头显提供了一个连续的、无需训练的辅助通道,该通道可以分解为两个互补的轴:注视固定捕捉视觉稳定性(质量),而瞳孔反应捕捉与唤醒相关的时刻(新颖性)。研究人员将这一洞察力转化为一个双重标准帧策展器,该策展器首先通过注视质量来筛选帧,然后通过瞳孔衍生的新颖性对幸存者进行排序。在视觉体验数据集(VEDB)上,以10%的预算策展的帧匹配完整流的分类性能,而简单的信号融合始终会破坏这两种贡献。这种好处是任务相关的:瞳孔排序改善了活动识别,而仅注视选择已经主导了场景识别,证实了这两个信号服务于真正不同的角色。该方法不需要模型推理,并且在捕获时运行,为高效的、常时的以自我为中心的数据策展提供了一条途径。
🔬 方法详解
问题定义:论文旨在解决以自我为中心的视频流中存在大量冗余和低质量帧的问题。现有方法要么直接处理所有帧,计算成本高昂;要么采用简单的帧采样策略,忽略了视频帧的质量和信息量差异,导致学习效率低下。因此,如何在存储和计算资源有限的情况下,高效地选择最具代表性和信息量的帧,成为一个关键挑战。
核心思路:论文的核心思路是利用眼动追踪头显提供的额外信息,即注视稳定性和瞳孔反应,作为帧选择的依据。注视稳定性反映了视觉质量,而瞳孔反应反映了场景的新颖性。通过结合这两个互补的信号,可以有效地筛选出高质量且信息量大的帧,从而提高学习效率。
技术框架:该方法的核心是一个双重标准帧策展器。首先,利用注视质量对帧进行初步筛选,去除低质量的帧。然后,利用瞳孔衍生的新颖性对剩余的帧进行排序,选择最具新颖性的帧。整个过程无需模型推理,可以在捕获时实时运行。
关键创新:该方法最重要的创新点在于将注视稳定性和瞳孔反应这两个生物信号结合起来,用于帧选择。与传统的基于图像特征或模型预测的帧选择方法相比,该方法无需训练,计算成本低,且能够有效地捕捉到高质量和信息量大的帧。此外,该方法还揭示了注视和瞳孔信息在不同任务中的互补作用。
关键设计:具体而言,注视质量可以通过注视点的稳定性来衡量,例如注视点在帧内的变化程度。瞳孔衍生的新颖性可以通过瞳孔大小的变化率来衡量,例如瞳孔突然放大或缩小可能表示场景中出现了新的或重要的信息。论文中可能还涉及一些参数设置,例如注视质量的阈值、瞳孔新颖性的排序方法等,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
在VEDB数据集上的实验表明,使用该方法策展的10%的帧,其分类性能与使用完整视频流相当。对于活动识别任务,瞳孔排序能够提升性能;而对于场景识别任务,仅使用注视信息进行选择就已表现出色。这表明注视和瞳孔信息在不同任务中具有互补作用,验证了该方法的有效性。
🎯 应用场景
该研究成果可应用于各种需要高效处理以自我为中心视频流的场景,例如:辅助现实(AR)、机器人模仿学习、活动识别、以及其他需要可穿戴设备进行数据采集和处理的应用。通过减少需要存储和处理的数据量,可以延长设备电池寿命,提高系统响应速度,并降低计算成本。该方法尤其适用于资源受限的移动平台。
📄 摘要(原文)
Always-on egocentric cameras are increasingly used as demonstrations for embodied robotics, imitation learning, and assistive AR, but the resulting video streams are dominated by redundant and low-quality frames. Under the storage and battery constraints of wearable devices, choosing which frames to keep is as important as how to learn from them. We observe that modern eye-tracking headsets provide a continuous, training-free side channel that decomposes into two complementary axes: gaze fixation captures visual stability (quality), while pupil response captures arousal-linked moments (novelty). We operationalize this insight as a Dual-Criterion Frame Curator that first gates frames by gaze quality and then ranks the survivors by pupil-derived novelty. On the Visual Experience Dataset (VEDB), curated frames at 10% budget match the classification performance of the full stream, and naive signal fusion consistently destroys both contributions. The benefit is task-dependent: pupil ranking improves activity recognition, while gaze-only selection already dominates for scene recognition, confirming that the two signals serve genuinely different roles. Our method requires no model inference and operates at capture time, offering a path toward efficient, always-on egocentric data curation.