TRec: Egocentric Action Recognition using 2D Point Tracks

📄 arXiv: 2601.03667v1 📥 PDF

作者: Dennis Holzmann, Sven Wachsmuth

分类: cs.CV, cs.LG

发布日期: 2026-01-07

备注: submitted to ICPR 2026


💡 一句话要点

TRec:利用2D点轨迹进行第一人称视角动作识别,提升识别精度。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 第一人称视角 动作识别 2D点轨迹 运动信息 Transformer

📋 核心要点

  1. 现有第一人称动作识别方法依赖RGB信息或姿态估计,缺乏对运动信息的有效利用,限制了识别精度。
  2. 该论文提出利用CoTracker跟踪随机图像点,生成2D点轨迹,作为运动线索输入Transformer模型,无需检测手、物体等。
  3. 实验表明,即使仅使用初始帧和点轨迹,该方法也能显著提升动作识别性能,验证了2D点轨迹的有效性。

📝 摘要(中文)

本文提出了一种新颖的第一人称视角动作识别方法,该方法利用2D点轨迹作为额外的运动线索。与大多数依赖RGB外观、人体姿态估计或其组合的现有方法不同,我们的工作表明,在视频帧中跟踪随机采样的图像点可以显著提高识别准确率。与先前的方法不同,我们不检测手、物体或交互区域。相反,我们使用CoTracker跟踪每个视频中一组随机初始化的点,并将生成的轨迹以及相应的图像帧作为基于Transformer的识别模型的输入。令人惊讶的是,即使仅提供初始帧及其相关的点轨迹,而无需合并完整的视频序列,我们的方法也能获得显著的收益。实验结果证实,与在没有运动信息的情况下训练的相同模型相比,集成2D点轨迹始终可以提高性能,突出了它们作为第一人称视角动作理解的轻量级但有效的表示的潜力。

🔬 方法详解

问题定义:现有第一人称视角动作识别方法主要依赖RGB外观特征或人体姿态估计,忽略了视频中的运动信息,或者需要复杂的手部、物体检测,计算成本高昂。这些方法在复杂场景或快速运动的情况下表现不佳,限制了识别的准确性和鲁棒性。

核心思路:本文的核心思路是利用2D点轨迹作为一种轻量级的运动表示。通过在视频帧中随机采样一些点,并使用跟踪算法(如CoTracker)跟踪这些点在视频中的运动轨迹,从而捕捉到视频中的运动信息。这种方法避免了复杂的手部、物体检测,降低了计算成本,并且能够有效地捕捉到视频中的运动信息。

技术框架:该方法主要包含两个阶段:1) 2D点轨迹提取阶段:使用CoTracker等跟踪算法,对视频帧中的随机采样点进行跟踪,得到每个点的2D轨迹。2) 基于Transformer的动作识别阶段:将初始帧图像和对应的2D点轨迹作为输入,输入到基于Transformer的动作识别模型中进行训练和预测。该模型学习图像外观特征和运动轨迹之间的关系,从而实现动作识别。

关键创新:该方法最重要的创新点在于将2D点轨迹作为一种轻量级的运动表示,并将其与图像外观特征相结合,用于第一人称视角动作识别。与现有方法相比,该方法无需进行复杂的手部、物体检测,降低了计算成本,并且能够有效地捕捉到视频中的运动信息。此外,即使仅使用初始帧和点轨迹,该方法也能取得较好的识别效果,表明了2D点轨迹的有效性。

关键设计:论文使用CoTracker来提取2D点轨迹,并使用Transformer作为动作识别模型。具体来说,Transformer模型的输入包括初始帧的图像特征和2D点轨迹的坐标信息。损失函数采用交叉熵损失函数,用于衡量模型预测结果与真实标签之间的差异。实验中,随机初始化一定数量的点,并使用Adam优化器进行模型训练。

📊 实验亮点

实验结果表明,与仅使用RGB外观特征的模型相比,集成2D点轨迹的模型在第一人称视角动作识别任务上取得了显著的性能提升。即使仅使用初始帧和点轨迹,该方法也能获得可观的性能,验证了2D点轨迹作为运动线索的有效性。具体提升幅度未知,原文未给出具体数值。

🎯 应用场景

该研究成果可应用于智能家居、可穿戴设备、机器人辅助等领域。例如,智能家居系统可以通过识别用户的日常活动,提供个性化的服务;可穿戴设备可以监测用户的运动状态,提供健康建议;机器人可以理解人类的意图,进行协作操作。该研究为第一人称视角下的行为理解提供了新的思路,具有广阔的应用前景。

📄 摘要(原文)

We present a novel approach for egocentric action recognition that leverages 2D point tracks as an additional motion cue. While most existing methods rely on RGB appearance, human pose estimation, or their combination, our work demonstrates that tracking randomly sampled image points across video frames can substantially improve recognition accuracy. Unlike prior approaches, we do not detect hands, objects, or interaction regions. Instead, we employ CoTracker to follow a set of randomly initialized points through each video and use the resulting trajectories, together with the corresponding image frames, as input to a Transformer-based recognition model. Surprisingly, our method achieves notable gains even when only the initial frame and its associated point tracks are provided, without incorporating the full video sequence. Experimental results confirm that integrating 2D point tracks consistently enhances performance compared to the same model trained without motion information, highlighting their potential as a lightweight yet effective representation for egocentric action understanding.