Improvement of Human-Object Interaction Action Recognition Using Scene Information and Multi-Task Learning Approach
作者: Hesham M. Shehata, Mohammad Abdolrahmani
分类: cs.CV
发布日期: 2025-09-11 (更新: 2025-09-16)
💡 一句话要点
提出结合场景信息的多任务学习方法,提升人与固定物体交互行为识别精度。
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 人机交互 行为识别 图卷积网络 多任务学习 场景理解
📋 核心要点
- 现有GCNs在人体行为识别中表现良好,但缺乏对场景信息的有效利用,导致人与物体交互识别精度不足。
- 本文提出一种多任务学习方法,结合环境中固定物体的信息,提升人与物体交互行为的识别性能。
- 实验结果表明,该方法在包含交互和非交互行为的数据集上,准确率达到99.25%,优于基线模型。
📝 摘要(中文)
本文提出了一种利用场景信息和多任务学习方法来改进人与物体交互行为识别性能的方案。现有的图卷积神经网络(GCNs)在人体行为识别领域表现出色,但由于缺乏对场景信息的有效表示和合适的学习架构,在检测人与物体交互行为时表现不佳。为了评估所提出的方法,我们从公共环境中收集了真实数据,并构建了一个数据集,其中包括与固定物体交互(例如,ATM售票机、入住/退房机等)以及行走和站立等非交互类别。实验结果表明,结合交互区域信息的多任务学习方法成功地识别了所研究的交互和非交互行为,准确率达到99.25%,比仅使用人体骨骼姿势的基线模型提高了2.75%。
🔬 方法详解
问题定义:现有基于人体骨骼姿势的图卷积神经网络(GCNs)在人与物体交互行为识别方面存在不足。主要痛点在于缺乏对场景信息的有效建模,无法充分利用环境中物体的信息来辅助行为识别,导致交互行为的识别精度不高。
核心思路:本文的核心思路是将场景信息融入到人体行为识别模型中,并采用多任务学习的方法。通过同时学习交互行为和非交互行为,以及利用交互区域的信息,模型可以更好地理解人与物体之间的关系,从而提高交互行为的识别精度。
技术框架:整体框架包含以下几个主要部分:1) 数据采集与标注:收集包含人与固定物体交互行为的视频数据,并进行标注。2) 特征提取:提取人体骨骼姿势特征和场景中的物体信息特征。3) 多任务学习模型构建:构建一个多任务学习模型,同时学习交互行为和非交互行为的分类。4) 交互区域信息融合:将交互区域的信息融入到模型中,以增强模型对交互行为的理解。
关键创新:本文的关键创新在于将场景信息和多任务学习方法结合起来,用于人与物体交互行为识别。与传统的仅使用人体骨骼姿势的方法相比,该方法能够更好地利用环境中的信息,从而提高识别精度。此外,多任务学习框架能够同时学习交互行为和非交互行为,从而提高模型的泛化能力。
关键设计:在多任务学习模型中,采用了共享特征提取层和独立的分类层。共享特征提取层用于提取人体骨骼姿势和场景信息的通用特征,独立的分类层用于分别对交互行为和非交互行为进行分类。损失函数采用交叉熵损失函数,并对不同任务的损失进行加权,以平衡不同任务的学习难度。具体的网络结构和参数设置需要根据实际数据集进行调整。
📊 实验亮点
实验结果表明,提出的多任务学习方法结合交互区域信息,在所构建的数据集上实现了99.25%的准确率,相比于仅使用人体骨骼姿势的基线模型,准确率提高了2.75%。这一结果验证了场景信息和多任务学习方法在人与物体交互行为识别中的有效性。
🎯 应用场景
该研究成果可应用于智能监控、智能家居、人机交互等领域。例如,在智能监控中,可以利用该方法识别用户在ATM机上的操作行为,从而提高安全性。在智能家居中,可以利用该方法识别用户与家电的交互行为,从而实现更智能的控制。未来,该方法可以进一步扩展到更复杂的场景,例如机器人辅助医疗、工业自动化等。
📄 摘要(原文)
Recent graph convolutional neural networks (GCNs) have shown high performance in the field of human action recognition by using human skeleton poses. However, it fails to detect human-object interaction cases successfully due to the lack of effective representation of the scene information and appropriate learning architectures. In this context, we propose a methodology to utilize human action recognition performance by considering fixed object information in the environment and following a multi-task learning approach. In order to evaluate the proposed method, we collected real data from public environments and prepared our data set, which includes interaction classes of hands-on fixed objects (e.g., ATM ticketing machines, check-in/out machines, etc.) and non-interaction classes of walking and standing. The multi-task learning approach, along with interaction area information, succeeds in recognizing the studied interaction and non-interaction actions with an accuracy of 99.25%, outperforming the accuracy of the base model using only human skeleton poses by 2.75%.