Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

📄 arXiv: 2603.05963v1 📥 PDF

作者: Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot

分类: cs.CV, cs.AI

发布日期: 2026-03-06

备注: Submitted to IEEE TPAMI, under review


💡 一句话要点

提出S2I编码,利用视觉预训练模型进行自监督骨骼表示学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 骨骼动作识别 自监督学习 视觉预训练模型 跨模态学习 异构数据处理

📋 核心要点

  1. 现有骨骼动作识别方法难以直接利用大规模视觉预训练模型,且缺乏对异构骨骼数据的有效处理。
  2. S2I编码将骨骼数据转换为图像格式,从而能够利用视觉预训练模型的强大能力进行骨骼表示学习。
  3. 实验表明,S2I编码在多个数据集上实现了有效的自监督骨骼表示学习,并具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种名为Skeleton-to-Image Encoding (S2I) 的新颖表示方法,通过基于身体部位语义分割和排列关节,并将骨骼序列调整为标准化的图像尺寸,将骨骼序列转换为类似图像的数据。这种编码首次实现了利用强大的视觉预训练模型进行自监督骨骼表示学习,有效地将丰富的视觉领域知识迁移到骨骼分析中。与现有方法通常为特定的同构骨骼格式设计模型不同,S2I表示提供了一种统一的图像格式,可以自然地适应异构骨骼数据。在NTU-60、NTU-120和PKU-MMD上的大量实验证明了该方法在自监督骨骼表示学习中的有效性和泛化性,包括在具有挑战性的跨格式评估设置下。

🔬 方法详解

问题定义:现有骨骼动作识别方法通常针对特定格式的骨骼数据设计,难以直接利用大规模视觉预训练模型。此外,骨骼数据集的规模相对较小,且不同来源的骨骼数据格式存在差异,导致模型难以泛化。因此,如何有效地利用视觉预训练模型的知识,并处理异构骨骼数据,是当前骨骼动作识别领域面临的挑战。

核心思路:论文的核心思路是将骨骼数据转换为图像格式,从而能够利用视觉预训练模型进行特征提取和表示学习。通过将骨骼关节按照身体部位进行分割和排列,并调整为标准化的图像尺寸,可以将骨骼序列转换为类似图像的数据。这种转换使得可以直接使用视觉预训练模型,从而将视觉领域的知识迁移到骨骼动作识别任务中。

技术框架:S2I编码方法主要包含以下几个步骤:1) 骨骼关节分割:将骨骼关节按照身体部位进行分割,例如头部、躯干、四肢等。2) 关节排列:将分割后的关节按照一定的规则进行排列,形成类似图像的结构。3) 图像尺寸调整:将排列后的关节图像调整为标准化的尺寸,例如224x224。4) 视觉预训练模型:使用视觉预训练模型(例如ResNet、ViT等)对编码后的骨骼图像进行特征提取和表示学习。

关键创新:S2I编码方法的关键创新在于将骨骼数据转换为图像格式,从而能够利用视觉预训练模型进行特征提取和表示学习。与现有方法相比,S2I编码方法不需要设计专门针对骨骼数据的模型,而是可以直接使用现有的视觉预训练模型,从而节省了大量的模型设计和训练成本。此外,S2I编码方法可以处理异构骨骼数据,因为它将不同格式的骨骼数据都转换为统一的图像格式。

关键设计:S2I编码方法的关键设计包括:1) 关节分割策略:论文中使用了基于身体部位语义的关节分割策略,将骨骼关节按照头部、躯干、四肢等进行分割。2) 关节排列规则:论文中使用了基于身体结构的关节排列规则,将分割后的关节按照其在身体上的位置进行排列。3) 图像尺寸调整策略:论文中使用了双线性插值方法将排列后的关节图像调整为标准化的尺寸。4) 视觉预训练模型选择:论文中使用了ResNet、ViT等多种视觉预训练模型进行特征提取和表示学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

S2I编码在NTU-60、NTU-120和PKU-MMD等数据集上进行了广泛的实验,结果表明,该方法在自监督骨骼表示学习方面取得了显著的成果。特别是在跨格式评估设置下,S2I编码仍然表现出良好的泛化能力,证明了其在处理异构骨骼数据方面的优势。具体性能数据在论文中有详细展示,相较于传统方法有显著提升。

🎯 应用场景

该研究成果可应用于人体动作识别、行为分析、运动康复等领域。通过将骨骼数据转换为图像格式,可以利用视觉领域的先进技术,提高动作识别的准确性和效率。此外,该方法还可以应用于虚拟现实、人机交互等领域,为用户提供更加自然和流畅的交互体验。未来,该方法有望在智能监控、智能家居等领域发挥重要作用。

📄 摘要(原文)

Recent advances in large-scale pretrained vision models have demonstrated impressive capabilities across a wide range of downstream tasks, including cross-modal and multi-modal scenarios. However, their direct application to 3D human skeleton data remains challenging due to fundamental differences in data format. Moreover, the scarcity of large-scale skeleton datasets and the need to incorporate skeleton data into multi-modal action recognition without introducing additional model branches present significant research opportunities. To address these challenges, we introduce Skeleton-to-Image Encoding (S2I), a novel representation that transforms skeleton sequences into image-like data by partitioning and arranging joints based on body-part semantics and resizing to standardized image dimensions. This encoding enables, for the first time, the use of powerful vision-pretrained models for self-supervised skeleton representation learning, effectively transferring rich visual-domain knowledge to skeleton analysis. While existing skeleton methods often design models tailored to specific, homogeneous skeleton formats, they overlook the structural heterogeneity that naturally arises from diverse data sources. In contrast, our S2I representation offers a unified image-like format that naturally accommodates heterogeneous skeleton data. Extensive experiments on NTU-60, NTU-120, and PKU-MMD demonstrate the effectiveness and generalizability of our method for self-supervised skeleton representation learning, including under challenging cross-format evaluation settings.