Point-Supervised Skeleton-Based Human Action Segmentation

📄 arXiv: 2603.06201v1 📥 PDF

作者: Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui

分类: cs.CV

发布日期: 2026-03-06


💡 一句话要点

提出基于点监督的骨骼动作分割框架,降低标注成本并提升性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 骨骼动作分割 点监督学习 伪标签生成 多模态融合 原型学习

📋 核心要点

  1. 现有骨骼动作分割方法依赖大量帧级别标注,成本高且易受模糊边界影响。
  2. 提出点监督框架,结合多模态骨骼数据和伪标签生成策略,降低标注需求。
  3. 实验表明,该方法在多个数据集上表现出色,甚至超越部分全监督方法。

📝 摘要(中文)

本文提出了一种基于点监督的骨骼动作分割框架,旨在解决动作分割任务中帧级别标注成本高昂和对模糊动作边界敏感的问题。该框架仅需每个动作片段一个帧的标注。通过预训练的统一模型编码多模态骨骼数据(包括关节、骨骼和运动信息),提取丰富的特征表示。为了生成可靠的伪标签,提出了一种新颖的原型相似度方法,并将其与能量函数和约束K-Medoids聚类相结合。提出了多模态伪标签融合,以增强伪标签的可靠性并指导模型训练。在PKU-MMD (X-Sub和X-View)、MCFS-22和MCFS-130数据集上建立了新的基准,并实现了点监督骨骼动作分割的基线。大量实验表明,该方法取得了具有竞争力的性能,甚至超过了一些完全监督的方法,同时显著降低了标注工作量。

🔬 方法详解

问题定义:骨骼动作分割旨在识别视频中每个帧所属的动作类别。现有方法主要依赖于全监督学习,需要对视频中的每一帧进行标注,标注成本非常高昂。此外,由于动作边界通常比较模糊,帧级别的标注也容易引入噪声,影响模型的性能。因此,如何在降低标注成本的同时,保证甚至提升动作分割的性能,是一个重要的研究问题。

核心思路:本文的核心思路是利用点监督信息(即每个动作片段仅标注一个帧)来生成伪标签,然后利用这些伪标签来训练动作分割模型。通过结合多种伪标签生成方法,并利用多模态骨骼数据,可以生成更加可靠的伪标签,从而提升模型的性能。这样既可以降低标注成本,又可以避免手动标注带来的噪声。

技术框架:该框架主要包含以下几个阶段:1) 特征提取:利用预训练的统一模型,从多模态骨骼数据(关节、骨骼、运动信息)中提取特征表示。2) 伪标签生成:结合原型相似度方法、能量函数和约束K-Medoids聚类三种方法生成伪标签。3) 伪标签融合:对多模态数据生成的伪标签进行融合,增强伪标签的可靠性。4) 模型训练:利用生成的伪标签训练动作分割模型。

关键创新:该论文的关键创新在于提出了一个基于点监督的骨骼动作分割框架,并设计了一种新颖的原型相似度方法来生成伪标签。此外,论文还提出了多模态伪标签融合策略,进一步提升了伪标签的质量。与现有方法相比,该方法只需要少量标注信息,就可以达到甚至超过全监督方法的性能。

关键设计:在伪标签生成阶段,原型相似度方法通过计算每个帧的特征与动作原型之间的相似度来生成伪标签。能量函数和约束K-Medoids聚类则利用视频的时序信息来约束伪标签的生成。多模态伪标签融合采用加权平均的方式,根据不同模态数据的可靠性赋予不同的权重。损失函数采用交叉熵损失函数,用于衡量模型预测结果与伪标签之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在PKU-MMD、MCFS-22和MCFS-130等数据集上取得了具有竞争力的性能。例如,在PKU-MMD数据集上,该方法甚至超过了一些全监督方法。与完全监督方法相比,该方法显著降低了标注成本,同时保持了较高的性能。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、康复训练等领域。例如,在智能监控中,可以利用该方法自动识别异常行为,无需人工标注大量视频数据。在康复训练中,可以辅助评估患者的动作完成情况,并提供个性化的训练方案。该方法降低了标注成本,使得骨骼动作分割技术更容易应用于实际场景中。

📄 摘要(原文)

Skeleton-based temporal action segmentation is a fundamental yet challenging task, playing a crucial role in enabling intelligent systems to perceive and respond to human activities. While fully-supervised methods achieve satisfactory performance, they require costly frame-level annotations and are sensitive to ambiguous action boundaries. To address these issues, we introduce a point-supervised framework for skeleton-based action segmentation, where only a single frame per action segment is labeled. We leverage multimodal skeleton data, including joint, bone, and motion information, encoded via a pretrained unified model to extract rich feature representations. To generate reliable pseudo-labels, we propose a novel prototype similarity method and integrate it with two existing methods: energy function and constrained K-Medoids clustering. Multimodal pseudo-label integration is proposed to enhance the reliability of the pseudo-label and guide the model training. We establish new benchmarks on PKU-MMD (X-Sub and X-View), MCFS-22, and MCFS-130, and implement baselines for point-supervised skeleton-based human action segmentation. Extensive experiments show that our method achieves competitive performance, even surpassing some fully-supervised methods while significantly reducing annotation effort.