Learning Quantised Structure-Preserving Motion Representations for Dance Fingerprinting
作者: Arina Kharlamova, Bowei He, Chen Ma, Xue Liu
分类: cs.CV, cs.AI
发布日期: 2026-04-01
💡 一句话要点
提出DANCEMATCH,通过量化运动结构表征实现舞蹈动作指纹识别
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 舞蹈检索 运动指纹识别 骨骼运动量化 时空Transformer 离散表示
📋 核心要点
- 现有方法依赖连续嵌入,难以索引、解释和扩展,限制了舞蹈检索的效率和可扩展性。
- DANCEMATCH通过骨骼运动量化(SMQ)和时空Transformer(STT)构建离散运动签名,捕捉舞蹈的时空结构。
- DANCEMATCH在DANCETYPESBENCHMARK数据集上表现出强大的检索能力和泛化性,为舞蹈分析奠定基础。
📝 摘要(中文)
本文提出DANCEMATCH,一个端到端的框架,用于基于运动的舞蹈检索,即直接从原始视频中识别语义相似的舞蹈编排,定义为舞蹈指纹识别。现有的运动分析和检索方法虽然可以比较姿势序列,但它们依赖于难以索引、解释或扩展的连续嵌入。相比之下,DANCEMATCH构建紧凑的、离散的运动签名,捕捉舞蹈的时空结构,同时实现高效的大规模检索。我们的系统集成了骨骼运动量化(SMQ)与时空Transformer(STT),将通过Apple CoMotion提取的人体姿势编码成结构化的运动词汇。我们进一步设计了DANCE RETRIEVAL ENGINE (DRE),它使用基于直方图的索引执行亚线性检索,然后进行重排序以进行精细匹配。为了方便可重复的研究,我们发布了DANCETYPESBENCHMARK,一个姿势对齐的、用量化运动token注释的数据集。实验证明了在不同舞蹈风格中的鲁棒检索,以及对未见过的舞蹈编排的强大泛化能力,为可扩展的运动指纹识别和定量编舞分析奠定了基础。
🔬 方法详解
问题定义:论文旨在解决舞蹈指纹识别问题,即从原始视频中检索语义相似的舞蹈编排。现有方法依赖于连续的姿势嵌入,这些嵌入难以索引、解释和扩展,限制了大规模舞蹈检索的效率和可扩展性。此外,这些方法通常缺乏对舞蹈动作时空结构的有效建模。
核心思路:论文的核心思路是将连续的姿势序列量化为离散的运动token,构建紧凑的运动签名,从而实现高效的检索。通过学习一个结构化的运动词汇表,DANCEMATCH能够捕捉舞蹈动作的时空结构,并利用高效的索引技术进行亚线性检索。这种离散化的方法不仅提高了检索效率,还使得运动签名的解释和分析更加容易。
技术框架:DANCEMATCH框架主要包含三个模块:1) 骨骼运动量化(SMQ):使用Apple CoMotion提取人体姿势,然后将姿势序列量化为离散的运动token。2) 时空Transformer(STT):利用Transformer网络学习运动token之间的时空关系,生成结构化的运动表示。3) DANCE RETRIEVAL ENGINE (DRE):使用基于直方图的索引进行亚线性检索,并使用重排序策略进行精细匹配。
关键创新:论文的关键创新在于将骨骼运动量化与时空Transformer相结合,构建了一种紧凑、离散且结构化的舞蹈动作表示。与现有方法依赖连续嵌入不同,DANCEMATCH的离散运动签名更易于索引、解释和扩展。此外,DANCE RETRIEVAL ENGINE的设计也提高了大规模舞蹈检索的效率。
关键设计:SMQ模块使用k-means聚类算法将姿势空间划分为若干个离散区域,每个区域对应一个运动token。STT模块使用标准的Transformer架构,通过自注意力机制学习运动token之间的时空依赖关系。DRE模块使用倒排索引存储运动token的直方图,并使用余弦相似度进行检索。重排序阶段使用更复杂的相似度度量,例如动态时间规整(DTW),来提高检索精度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DANCEMATCH在DANCETYPESBENCHMARK数据集上实现了鲁棒的舞蹈检索性能,并且能够很好地泛化到未见过的舞蹈编排。具体性能数据未知,但摘要强调了其在不同舞蹈风格上的检索能力和对新编舞的泛化性,暗示了其优于现有方法的性能。
🎯 应用场景
DANCEMATCH具有广泛的应用前景,包括舞蹈教学、舞蹈创作、版权保护和娱乐应用。例如,它可以帮助用户快速找到与特定舞蹈风格或动作相似的舞蹈视频,辅助舞蹈学习和创作。此外,DANCEMATCH还可以用于检测未经授权的舞蹈视频,保护舞蹈作品的版权。在娱乐领域,它可以用于推荐个性化的舞蹈内容,提升用户体验。
📄 摘要(原文)
We present DANCEMATCH, an end-to-end framework for motion-based dance retrieval, the task of identifying semantically similar choreographies directly from raw video, defined as DANCE FINGERPRINTING. While existing motion analysis and retrieval methods can compare pose sequences, they rely on continuous embeddings that are difficult to index, interpret, or scale. In contrast, DANCEMATCH constructs compact, discrete motion signatures that capture the spatio-temporal structure of dance while enabling efficient large-scale retrieval. Our system integrates Skeleton Motion Quantisation (SMQ) with Spatio-Temporal Transformers (STT) to encode human poses, extracted via Apple CoMotion, into a structured motion vocabulary. We further design DANCE RETRIEVAL ENGINE (DRE), which performs sub-linear retrieval using a histogram-based index followed by re-ranking for refined matching. To facilitate reproducible research, we release DANCETYPESBENCHMARK, a pose-aligned dataset annotated with quantised motion tokens. Experiments demonstrate robust retrieval across diverse dance styles and strong generalisation to unseen choreographies, establishing a foundation for scalable motion fingerprinting and quantitative choreographic analysis.