GazeTrack: High-Precision Eye Tracking Based on Regularization and Spatial Computing

📄 arXiv: 2511.22607v1 📥 PDF

作者: Xiaoyin Yang

分类: cs.CV, cs.AI, cs.HC, cs.LG

发布日期: 2025-11-27

备注: 10 pages, 7 figures


💡 一句话要点

GazeTrack:基于正则化和空间计算的高精度眼动追踪

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 眼动追踪 瞳孔定位 注视向量预测 形状误差正则化 坐标变换 虚拟现实 增强现实

📋 核心要点

  1. 现有眼动追踪精度不足,难以满足VR/AR空间计算的需求,尤其是在多样化人群数据上的表现。
  2. 提出形状误差正则化方法约束瞳孔椭圆拟合,并设计坐标变换方法准确预测注视向量。
  3. 构建了GazeTrack数据集,并验证了所提方法在降低注视角度误差和计算复杂度方面的有效性。

📝 摘要(中文)

眼动追踪在虚拟现实和增强现实应用中变得越来越重要;然而,当前的注视精度未能满足空间计算的要求。我们设计了一个注视数据采集框架,并利用高精度设备收集了首个精确的基准数据集GazeTrack,该数据集涵盖了不同种族、年龄和视力条件下的瞳孔定位和注视追踪数据。我们提出了一种新颖的形状误差正则化方法来约束瞳孔椭圆拟合,并在开源数据集上进行训练,从而提高语义分割和瞳孔位置预测的准确性。此外,我们发明了一种类似于纸张展开的新颖坐标变换方法,以在GazeTrack数据集上准确预测注视向量。最后,我们构建了一个注视向量生成模型,与其他方法相比,该模型以较低的计算复杂度实现了更小的注视角度误差。

🔬 方法详解

问题定义:现有眼动追踪技术在精度上存在不足,尤其是在应用于对精度要求极高的虚拟现实(VR)和增强现实(AR)空间计算时。现有方法在处理不同种族、年龄和视力条件的人群数据时,鲁棒性也存在挑战。瞳孔定位和注视向量预测的准确性是关键瓶颈。

核心思路:论文的核心思路是通过引入形状误差正则化来提升瞳孔定位的精度,并设计一种新的坐标变换方法来更准确地预测注视向量。形状误差正则化旨在约束瞳孔椭圆拟合过程,使其更符合真实的瞳孔形状。新的坐标变换方法则旨在解决注视向量预测中的几何失真问题。

技术框架:整体框架包括三个主要部分:1) GazeTrack数据集的构建,用于提供高质量的训练和测试数据;2) 基于形状误差正则化的瞳孔定位模块,用于精确地定位瞳孔位置;3) 基于新坐标变换的注视向量生成模块,用于预测用户的注视方向。该框架首先利用GazeTrack数据集训练瞳孔定位模型,然后利用该模型定位瞳孔,最后通过坐标变换和注视向量生成模型预测注视方向。

关键创新:论文的关键创新点在于:1) 提出了形状误差正则化方法,用于约束瞳孔椭圆拟合,提高瞳孔定位精度;2) 发明了一种类似于纸张展开的新颖坐标变换方法,用于更准确地预测注视向量;3) 构建了包含多样化人群数据的GazeTrack基准数据集。与现有方法相比,该方法在精度和鲁棒性方面都有所提升。

关键设计:形状误差正则化通过在损失函数中添加一个正则化项来实现,该正则化项惩罚了拟合椭圆与真实瞳孔形状之间的偏差。坐标变换方法的具体实现细节未知,但其核心思想是将三维空间中的坐标变换问题转化为二维平面上的展开问题,从而简化计算并提高精度。GazeTrack数据集包含了不同种族、年龄和视力条件下的眼动数据,并使用了高精度设备进行采集,保证了数据的质量。

📊 实验亮点

实验结果表明,所提出的方法在GazeTrack数据集上取得了显著的性能提升。与现有方法相比,该方法能够以较低的计算复杂度实现更小的注视角度误差。具体的数据指标未知,但摘要强调了在精度和计算效率上的优势。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、人机交互、眼控设备等领域。高精度的眼动追踪技术能够提升用户在VR/AR环境中的交互体验,例如实现更自然的物体选择、菜单导航等。此外,该技术还可用于辅助驾驶、医疗诊断等领域,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Eye tracking has become increasingly important in virtual and augmented reality applications; however, the current gaze accuracy falls short of meeting the requirements for spatial computing. We designed a gaze collection framework and utilized high-precision equipment to gather the first precise benchmark dataset, GazeTrack, encompassing diverse ethnicities, ages, and visual acuity conditions for pupil localization and gaze tracking. We propose a novel shape error regularization method to constrain pupil ellipse fitting and train on open-source datasets, enhancing semantic segmentation and pupil position prediction accuracy. Additionally, we invent a novel coordinate transformation method similar to paper unfolding to accurately predict gaze vectors on the GazeTrack dataset. Finally, we built a gaze vector generation model that achieves reduced gaze angle error with lower computational complexity compared to other methods.