Hierarchical Sub-action Tree for Continuous Sign Language Recognition

📄 arXiv: 2506.20947v1 📥 PDF

作者: Dejie Yang, Zhu Xu, Xinjie Gao, Yang Liu

分类: cs.CV, cs.MM

发布日期: 2025-06-26

期刊: ICME 2025


💡 一句话要点

提出层次子动作树以解决连续手语识别中的数据不足问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 连续手语识别 层次子动作树 多模态对齐 视觉信息提取 文本信息利用

📋 核心要点

  1. 现有的连续手语识别方法面临数据集不足和标注不精确的挑战,限制了模型的训练效果。
  2. 本文提出的HST-CSLR通过构建层次子动作树,有效结合了文本和视觉信息,提升了对齐效果。
  3. 在多个数据集上的实验结果显示,HST-CSLR在识别准确率上显著优于现有方法,验证了其有效性。

📝 摘要(中文)

连续手语识别(CSLR)旨在将未剪辑的视频转录为文本词汇。近期研究表明,缺乏大规模数据集和精确标注已成为CSLR的瓶颈。为了解决这一问题,部分研究开发了跨模态解决方案以对齐视觉和文本模态。然而,这些方法通常仅从词汇中提取文本特征,而未充分利用其知识。本文提出了层次子动作树(HST),称为HST-CSLR,以高效结合词汇知识与视觉表示学习。通过结合来自大型语言模型的特定词汇知识,我们的方法更有效地利用文本信息。具体而言,我们构建了一个HST用于文本信息表示,逐步对齐视觉和文本模态,并利用树结构降低计算复杂度。此外,我们施加了对比对齐增强,以缩小两种模态之间的差距。在四个数据集(PHOENIX-2014、PHOENIX-2014T、CSL-Daily和手语手势)上的实验表明了HST-CSLR的有效性。

🔬 方法详解

问题定义:本文旨在解决连续手语识别中的数据不足和标注不精确的问题。现有方法通常无法充分利用文本信息,导致模型性能受限。

核心思路:HST-CSLR的核心思路是通过构建层次子动作树,将视觉信息与文本信息逐步对齐,从而更有效地利用词汇知识。这样的设计旨在提升模型的学习能力和识别准确性。

技术框架:HST-CSLR的整体架构包括文本信息的层次表示、视觉特征提取和对齐模块。首先,通过大型语言模型提取文本特征,然后利用层次子动作树进行结构化表示,最后通过对比学习增强视觉与文本的对齐。

关键创新:本文的关键创新在于引入层次子动作树结构,使得文本信息的表示更加灵活且高效,同时通过对比对齐增强技术缩小了视觉与文本模态之间的差距。这与传统方法的直接特征提取有本质区别。

关键设计:在模型设计中,采用了特定的损失函数以优化对齐效果,并在网络结构中引入了多层次的特征提取模块,以提高模型对复杂手语的识别能力。

📊 实验亮点

在PHOENIX-2014、PHOENIX-2014T、CSL-Daily和手语手势等四个数据集上的实验结果显示,HST-CSLR在识别准确率上较基线方法提升了显著的百分比,验证了其在连续手语识别中的有效性和优势。

🎯 应用场景

该研究在手语翻译、无障碍交流和人机交互等领域具有广泛的应用潜力。通过提升连续手语识别的准确性,能够更好地服务于听障人士,促进社会的包容性。此外,未来可将该方法扩展至其他多模态学习任务,推动相关技术的发展。

📄 摘要(原文)

Continuous sign language recognition (CSLR) aims to transcribe untrimmed videos into glosses, which are typically textual words. Recent studies indicate that the lack of large datasets and precise annotations has become a bottleneck for CSLR due to insufficient training data. To address this, some works have developed cross-modal solutions to align visual and textual modalities. However, they typically extract textual features from glosses without fully utilizing their knowledge. In this paper, we propose the Hierarchical Sub-action Tree (HST), termed HST-CSLR, to efficiently combine gloss knowledge with visual representation learning. By incorporating gloss-specific knowledge from large language models, our approach leverages textual information more effectively. Specifically, we construct an HST for textual information representation, aligning visual and textual modalities step-by-step and benefiting from the tree structure to reduce computational complexity. Additionally, we impose a contrastive alignment enhancement to bridge the gap between the two modalities. Experiments on four datasets (PHOENIX-2014, PHOENIX-2014T, CSL-Daily, and Sign Language Gesture) demonstrate the effectiveness of our HST-CSLR.