MGCA-Net: Multi-Grained Category-Aware Network for Open-Vocabulary Temporal Action Localization

作者: Zhenying Fang, Richang Hong

分类: cs.CV

发布日期: 2025-11-17

备注: 12 pages, 3 figures

💡 一句话要点

提出MGCA-Net，通过多粒度类别感知解决开放词汇时序动作定位问题。

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 开放词汇时序动作定位 多粒度学习 类别感知 视频理解 零样本学习

📋 核心要点

现有开放词汇时序动作定位方法在单一粒度上识别动作类别，导致基础类别和新类别的识别精度下降。
MGCA-Net通过多粒度类别感知，利用定位器、动作存在预测器和粗到精分类器，提升动作定位性能。
在THUMOS'14和ActivityNet-1.3数据集上，MGCA-Net取得了state-of-the-art的性能，包括零样本设置。

📝 摘要（中文）

本文提出了一种多粒度类别感知网络(MGCA-Net)，用于解决开放词汇时序动作定位(OV-TAL)问题。OV-TAL旨在识别和定位视频中任意期望动作类别的实例，而无需为所有类别显式地整理训练数据。现有方法大多在单一粒度上识别动作类别，降低了基础和新类别动作的识别精度。MGCA-Net包含一个定位器、一个动作存在预测器、一个传统分类器和一个由粗到精的分类器。定位器用于定位类别无关的动作提议。动作存在预测器估计这些动作提议属于动作实例的概率。传统分类器预测每个动作提议在片段粒度上属于基础动作类别的概率。由粗到精的分类器识别新动作类别，首先在视频粒度上识别动作存在，然后将每个动作提议分配到提议粒度上的粗类别。通过对新动作的由粗到精的类别感知和传统分类器对基础动作的感知，实现了多粒度类别感知，有效提高了定位性能。在THUMOS'14和ActivityNet-1.3基准上的综合评估表明，该方法达到了最先进的性能。此外，MGCA-Net在零样本时序动作定位设置下也取得了最先进的结果。

🔬 方法详解

问题定义：开放词汇时序动作定位(OV-TAL)旨在识别和定位视频中任意动作类别的实例，而无需为所有类别准备训练数据。现有方法主要在单一粒度上识别动作类别，这限制了模型区分细粒度动作的能力，导致基础类别和新类别的识别精度都受到影响。因此，如何提升模型在不同粒度上识别动作类别的能力是关键挑战。

核心思路：MGCA-Net的核心思路是引入多粒度类别感知机制。对于基础动作类别，使用传统的分类器在片段粒度上进行识别；对于新动作类别，则采用由粗到精的分类器，首先在视频粒度上判断动作是否存在，然后在提议粒度上将动作提议分配到粗类别。通过这种方式，模型能够同时感知粗粒度和细粒度的类别信息，从而提高动作定位的准确性。

技术框架：MGCA-Net的整体架构包含四个主要模块：1) 定位器：用于生成类别无关的动作提议；2) 动作存在预测器：估计每个动作提议属于动作实例的概率；3) 传统分类器：在片段粒度上预测每个动作提议属于基础动作类别的概率；4) 由粗到精的分类器：首先在视频粒度上识别动作存在，然后在提议粒度上将每个动作提议分配到粗类别。这些模块协同工作，实现多粒度类别感知。

关键创新：MGCA-Net的关键创新在于其多粒度类别感知机制。与现有方法仅在单一粒度上进行类别识别不同，MGCA-Net同时考虑了粗粒度和细粒度的类别信息。通过由粗到精的分类器，模型能够更好地识别新动作类别，并将其与基础动作类别区分开来。这种多粒度感知能力显著提高了动作定位的准确性。

关键设计：在由粗到精的分类器中，视频粒度的动作存在预测模块可能采用多示例学习(MIL)方法，将视频级别的标签与提议级别的特征关联起来。损失函数的设计可能包括分类损失、定位损失和动作存在预测损失，以联合优化各个模块的性能。网络结构可能采用Transformer或卷积神经网络，以提取视频片段的特征。

📊 实验亮点

MGCA-Net在THUMOS'14和ActivityNet-1.3数据集上取得了state-of-the-art的性能。具体来说，该方法在开放词汇时序动作定位任务中，显著优于现有的基线方法。此外，MGCA-Net在零样本时序动作定位设置下也取得了最先进的结果，表明其具有良好的泛化能力。这些实验结果充分证明了MGCA-Net的多粒度类别感知机制的有效性。

🎯 应用场景

MGCA-Net在视频监控、智能安防、自动驾驶等领域具有广泛的应用前景。它可以用于识别和定位视频中的异常行为、交通事件等，提高安全性和效率。此外，该方法还可以应用于视频内容分析、视频检索等领域，帮助用户快速找到感兴趣的视频片段。未来，该研究可以扩展到更复杂的场景，例如多模态视频分析、人机交互等。

📄 摘要（原文）

Open-Vocabulary Temporal Action Localization (OV-TAL) aims to recognize and localize instances of any desired action categories in videos without explicitly curating training data for all categories. Existing methods mostly recognize action categories at a single granularity, which degrades the recognition accuracy of both base and novel action categories. To address these issues, we propose a Multi-Grained Category-Aware Network (MGCA-Net) comprising a localizer, an action presence predictor, a conventional classifier, and a coarse-to-fine classifier. Specifically, the localizer localizes category-agnostic action proposals. For these action proposals, the action presence predictor estimates the probability that they belong to an action instance. At the same time, the conventional classifier predicts the probability of each action proposal over base action categories at the snippet granularity. Novel action categories are recognized by the coarse-to-fine classifier, which first identifies action presence at the video granularity. Finally, it assigns each action proposal to one category from the coarse categories at the proposal granularity. Through coarse-to-fine category awareness for novel actions and the conventional classifier's awareness of base actions, multi-grained category awareness is achieved, effectively enhancing localization performance. Comprehensive evaluations on the THUMOS'14 and ActivityNet-1.3 benchmarks demonstrate that our method achieves state-of-the-art performance. Furthermore, our MGCA-Net achieves state-of-the-art results under the Zero-Shot Temporal Action Localization setting.

MGCA-Net: Multi-Grained Category-Aware Network for Open-Vocabulary Temporal Action Localization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册