EETnet: a CNN for Gaze Detection and Tracking for Smart-Eyewear
作者: Andrea Aspesi, Andrea Simpsi, Aaron Tognoli, Simone Mentasti, Luca Merigo, Matteo Matteucci
分类: cs.CV
发布日期: 2025-11-06
备注: International Joint Conference on Neural Networks (IJCNN), 2025
💡 一句话要点
EETnet:为智能眼镜设计的基于事件的低功耗注视检测与跟踪CNN
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 眼动追踪 事件相机 卷积神经网络 低功耗 嵌入式系统
📋 核心要点
- 现有眼动追踪方案计算资源需求高,难以在低功耗嵌入式设备上部署,限制了其在智能眼镜等设备上的应用。
- EETnet利用事件相机产生的稀疏异步事件数据,设计轻量级CNN,降低计算复杂度,使其能够在微控制器上运行。
- 论文提出了EETnet的分类和回归两种模型,并提供了在公共数据集上训练、评估和量化该网络的方法。
📝 摘要(中文)
本文提出了一种名为EETnet的卷积神经网络,专为使用纯事件数据的眼动追踪而设计,能够在资源有限的微控制器上运行。事件相机正成为高效、低功耗眼动追踪的热门解决方案。由于事件数据的稀疏性和异步性,它们需要的处理能力更少,并提供微秒级的延迟。然而,许多现有解决方案仅限于在强大的GPU上进行验证,而无法在真正的嵌入式设备上部署。此外,本文还概述了一种使用公共数据集训练、评估和量化网络的方法。最后,提出了该架构的两个版本:一个分类模型,用于检测叠加在原始图像上的网格上的瞳孔;以及一个回归模型,可在像素级别运行。
🔬 方法详解
问题定义:论文旨在解决现有眼动追踪系统功耗高、计算量大,难以在资源受限的智能眼镜等设备上实时运行的问题。现有方法通常依赖于传统相机图像,需要大量的图像处理,或者只能在高性能GPU上运行,无法满足嵌入式设备的需求。
核心思路:论文的核心思路是利用事件相机产生的事件数据,这种数据具有稀疏性和异步性,能够显著降低计算量。同时,设计一个轻量级的卷积神经网络(CNN),使其能够在微控制器上高效运行,实现低功耗的眼动追踪。
技术框架:EETnet的整体框架包括事件数据的预处理(可能包括事件的累积或编码),然后输入到CNN网络中进行处理。CNN网络输出可以是分类结果(瞳孔在网格中的位置)或回归结果(瞳孔的像素坐标)。论文提出了两种架构:分类模型和回归模型。分类模型将图像划分成网格,预测瞳孔所在的网格单元;回归模型直接预测瞳孔的像素坐标。
关键创新:EETnet的关键创新在于针对事件数据的特性,设计了一个轻量级的CNN架构,使其能够在资源受限的微控制器上运行。此外,论文还提出了使用公共数据集训练、评估和量化该网络的方法,为在嵌入式设备上部署眼动追踪系统提供了可行的方案。
关键设计:论文中提到了两种模型:分类模型和回归模型。分类模型将图像划分成网格,使用交叉熵损失函数进行训练。回归模型直接预测瞳孔的像素坐标,可以使用L1或L2损失函数进行训练。具体的网络结构(卷积层数、滤波器大小、激活函数等)以及量化方法等细节,需要在论文中进一步查找。参数设置可能需要根据具体数据集和硬件平台进行调整。
📊 实验亮点
论文提出了EETnet,一个专为事件数据设计的轻量级CNN,能够在微控制器上运行,实现了低功耗的眼动追踪。虽然摘要中没有给出具体的性能数据,但强调了其在嵌入式设备上的可行性,并提供了训练、评估和量化网络的方法。
🎯 应用场景
EETnet在智能眼镜、VR/AR设备等领域具有广泛的应用前景。它可以用于用户界面交互、眼控输入、注意力追踪、辅助驾驶等场景。低功耗的特性使其非常适合电池供电的移动设备,能够提升用户体验并扩展设备的功能。
📄 摘要(原文)
Event-based cameras are becoming a popular solution for efficient, low-power eye tracking. Due to the sparse and asynchronous nature of event data, they require less processing power and offer latencies in the microsecond range. However, many existing solutions are limited to validation on powerful GPUs, with no deployment on real embedded devices. In this paper, we present EETnet, a convolutional neural network designed for eye tracking using purely event-based data, capable of running on microcontrollers with limited resources. Additionally, we outline a methodology to train, evaluate, and quantize the network using a public dataset. Finally, we propose two versions of the architecture: a classification model that detects the pupil on a grid superimposed on the original image, and a regression model that operates at the pixel level.