MS-CLR: Multi-Skeleton Contrastive Learning for Human Action Recognition

📄 arXiv: 2508.14889v1 📥 PDF

作者: Mert Kiray, Alvaro Ritter, Nassir Navab, Benjamin Busam

分类: cs.CV

发布日期: 2025-08-20


💡 一句话要点

提出多骨架对比学习方法以解决动作识别中的骨架结构多样性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 骨架动作识别 对比学习 自监督学习 多模态学习 深度学习

📋 核心要点

  1. 现有的骨架动作识别方法依赖于单一骨架结构,导致在不同数据集上的泛化能力不足。
  2. 本文提出的多骨架对比学习(MS-CLR)框架,通过对齐多种骨架约定的姿态表示,增强了模型对结构不变性的学习。
  3. 在NTU RGB+D 60和120数据集上的实验结果显示,MS-CLR在性能上显著优于现有的单骨架对比学习方法。

📝 摘要(中文)

对比学习在基于骨架的人类动作识别中受到广泛关注,因其能够从未标记数据中学习到鲁棒的表示。然而,现有方法依赖单一骨架约定,限制了其在具有多样关节结构和解剖覆盖的数据集上的泛化能力。本文提出了多骨架对比学习(MS-CLR),这是一个通用的自监督框架,能够对来自同一序列的多种骨架约定的姿态表示进行对齐。这种方法促使模型学习结构不变性并捕捉多样的解剖线索,从而生成更具表现力和可泛化的特征。实验结果表明,MS-CLR在NTU RGB+D 60和120数据集上相较于强大的单骨架对比学习基线表现出一致的性能提升。

🔬 方法详解

问题定义:本文旨在解决现有单一骨架约定在多样化数据集上的泛化能力不足的问题。现有方法无法有效处理不同关节结构和解剖覆盖的挑战。

核心思路:提出多骨架对比学习(MS-CLR)框架,通过对齐来自同一序列的多种骨架约定的姿态表示,促使模型学习结构不变性和多样的解剖线索。

技术框架:MS-CLR框架采用了适应性ST-GCN架构,能够处理不同关节布局和尺度的骨架。整体流程包括数据预处理、骨架提取、对比学习和特征融合等主要模块。

关键创新:最重要的创新在于引入了多骨架对比学习机制,使得模型能够在多种骨架约定下进行学习,从而提升了特征的表达能力和泛化能力。

关键设计:在网络结构上,采用了统一的表示方案来处理不同的骨架布局,损失函数设计上则强调了对比学习的有效性,确保模型能够在多样的骨架结构中学习到有用的特征。

📊 实验亮点

在NTU RGB+D 60和120数据集上的实验结果显示,MS-CLR在性能上显著优于现有的单骨架对比学习基线,具体提升幅度达到XX%,并且通过多骨架集成进一步提高了性能,创造了新的最先进结果。

🎯 应用场景

该研究的潜在应用领域包括智能监控、虚拟现实、运动分析等,能够提升人机交互的智能化水平。通过更准确的人类动作识别,未来可以在医疗康复、体育训练等领域发挥重要作用,推动相关技术的发展与应用。

📄 摘要(原文)

Contrastive learning has gained significant attention in skeleton-based action recognition for its ability to learn robust representations from unlabeled data. However, existing methods rely on a single skeleton convention, which limits their ability to generalize across datasets with diverse joint structures and anatomical coverage. We propose Multi-Skeleton Contrastive Learning (MS-CLR), a general self-supervised framework that aligns pose representations across multiple skeleton conventions extracted from the same sequence. This encourages the model to learn structural invariances and capture diverse anatomical cues, resulting in more expressive and generalizable features. To support this, we adapt the ST-GCN architecture to handle skeletons with varying joint layouts and scales through a unified representation scheme. Experiments on the NTU RGB+D 60 and 120 datasets demonstrate that MS-CLR consistently improves performance over strong single-skeleton contrastive learning baselines. A multi-skeleton ensemble further boosts performance, setting new state-of-the-art results on both datasets.