EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization

作者: Xiaoqi Wang, Yi Wang, Lap-Pui Chau

分类: cs.CV, cs.AI

发布日期: 2025-06-17

🔗 代码/项目: GITHUB

💡 一句话要点

提出EVA02-AT以解决自我中心视频语言理解中的多重挑战

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自我中心视频理解 时空建模 多实例检索 旋转位置嵌入 对称多相似性损失 视频语言模型 深度学习

📋 核心要点

现有方法在自我中心视频语言理解中面临高预训练成本、时空编码无效和学习目标不精确等挑战。
本文提出EVA02-AT，通过单阶段预训练将CLIP模型转化为视频编码器，并引入时空旋转位置嵌入和联合注意力机制。
在Ego4D、EPIC-Kitchens-100和Charades-Ego等数据集上，EVA02-AT在零-shot和微调设置下均实现了最先进的性能。

📝 摘要（中文）

自我中心视频语言理解需要高效且准确的时空建模。现有方法面临三大挑战：一是多阶段预训练导致的高成本，二是手动分割的3D旋转位置嵌入影响特征交互，三是软标签多实例检索中的学习目标不精确，忽视负样本相关性。本文提出EVA02-AT，一个基于EVA02的视频语言基础模型，专为自我中心视频理解任务设计。EVA02-AT通过单阶段预训练高效地将图像基础的CLIP模型转化为统一的视频编码器，并引入时空旋转位置嵌入和联合注意力机制，有效编码空间和时间信息。我们还提出对称多相似性损失（SMS），为正负样本提供更精确的学习目标。实验表明，EVA02-AT在多个数据集上实现了最先进的性能，且参数更少。

🔬 方法详解

问题定义：本文旨在解决自我中心视频语言理解中的高预训练成本、时空编码无效及学习目标不精确等问题。现有方法往往依赖于复杂的多阶段预训练流程，导致效率低下，同时手动分割的旋转位置嵌入影响特征的有效交互。

核心思路：EVA02-AT通过单阶段预训练高效地将图像基础的CLIP模型转化为视频编码器，避免了多阶段预训练的复杂性。同时，采用时空旋转位置嵌入与联合注意力机制，能够在整个隐藏维度上有效编码空间和时间信息，从而学习到跨轴关系。

技术框架：EVA02-AT的整体架构包括一个统一的视频编码器，时空旋转位置嵌入模块，以及对称多相似性损失（SMS）模块。模型首先通过单阶段预训练进行初始化，然后在多实例视频语言检索任务中进行微调。

关键创新：最重要的创新在于引入时空旋转位置嵌入和联合注意力机制，使得模型能够同时有效地捕捉空间和时间信息，进而改善视频中的运动和交互建模。与现有方法相比，EVA02-AT在特征交互上具有更高的灵活性和准确性。

关键设计：在损失函数方面，采用对称多相似性损失（SMS），为正负样本提供更精确的学习目标。此外，模型设计中还包括优化的参数设置，以减少模型的复杂性并提升性能。通过这些设计，EVA02-AT在多个数据集上展现了优越的性能。

📊 实验亮点

EVA02-AT在Ego4D、EPIC-Kitchens-100和Charades-Ego等数据集上实现了最先进的性能，尤其在多实例检索基准上，采用SMS损失的模型表现出显著的性能提升，参数数量更少，效率更高。

🎯 应用场景

该研究在自我中心视频理解领域具有广泛的应用潜力，尤其是在智能监控、虚拟现实和人机交互等场景中。通过提高视频与语言的理解能力，EVA02-AT能够为自动化视频分析、内容检索和用户交互提供更智能的解决方案，未来可能推动相关技术的进一步发展。

📄 摘要（原文）

Egocentric video-language understanding demands both high efficiency and accurate spatial-temporal modeling. Existing approaches face three key challenges: 1) Excessive pre-training cost arising from multi-stage pre-training pipelines, 2) Ineffective spatial-temporal encoding due to manually split 3D rotary positional embeddings that hinder feature interactions, and 3) Imprecise learning objectives in soft-label multi-instance retrieval, which neglect negative pair correlations. In this paper, we introduce EVA02-AT, a suite of EVA02-based video-language foundation models tailored to egocentric video understanding tasks. EVA02-AT first efficiently transfers an image-based CLIP model into a unified video encoder via a single-stage pretraining. Second, instead of applying rotary positional embeddings to isolated dimensions, we introduce spatial-temporal rotary positional embeddings along with joint attention, which can effectively encode both spatial and temporal information on the entire hidden dimension. This joint encoding of spatial-temporal features enables the model to learn cross-axis relationships, which are crucial for accurately modeling motion and interaction in videos. Third, focusing on multi-instance video-language retrieval tasks, we introduce the Symmetric Multi-Similarity (SMS) loss and a novel training framework that advances all soft labels for both positive and negative pairs, providing a more precise learning objective. Extensive experiments on Ego4D, EPIC-Kitchens-100, and Charades-Ego under zero-shot and fine-tuning settings demonstrate that EVA02-AT achieves state-of-the-art performance across diverse egocentric video-language tasks with fewer parameters. Models with our SMS loss also show significant performance gains on multi-instance retrieval benchmarks. Our code and models are publicly available at https://github.com/xqwang14/EVA02-AT .

EVA02-AT: Egocentric Video-Language Understanding with Spatial-Temporal Rotary Positional Embeddings and Symmetric Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册