Exploring Spatial-Temporal Representation via Star Graph for mmWave Radar-based Human Activity Recognition
作者: Senhao Gao, Junqing Zhang, Luoyu Mei, Shuai Wang, Xuyu Wang
分类: cs.CV, cs.LG, eess.IV
发布日期: 2025-12-12
💡 一句话要点
提出基于星型图的离散动态图神经网络,用于毫米波雷达人体活动识别
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 毫米波雷达 人体活动识别 图神经网络 时空表示 星型图
📋 核心要点
- 毫米波雷达HAR系统面临点云稀疏和尺寸可变问题,传统视觉预处理方法可能不适用。
- 提出星型图表示,结合静态中心点与动态雷达点,捕捉时空关系,并用DDGNN学习特征。
- 实验表明,该方法在真实数据集上优于其他基线,并在资源受限平台有效,精度达94.27%。
📝 摘要(中文)
人体活动识别(HAR)需要提取准确的、与人体运动相关的时空特征。基于毫米波雷达点云的HAR系统由于毫米波信号的物理特性,面临着稀疏性和可变尺寸的问题。现有工作通常借鉴视觉系统的预处理算法,但这些算法可能并非毫米波雷达系统的最优选择。本文提出了一种基于离散动态图神经网络(DDGNN)的图表示方法,以探索人体运动相关特征的时空表示。具体而言,我们设计了一个星型图,用于描述同一帧和连续帧中手动添加的静态中心点与动态毫米波雷达点之间的高维相对关系。然后,我们采用DDGNN来学习驻留在可变大小的星型图中的特征。实验结果表明,我们的方法优于使用真实世界HAR数据集的其他基线方法。我们的系统实现了94.27%的总体分类精度,接近基于视觉的骨骼数据97.25%的近乎最优性能。我们还在Raspberry Pi 4上进行了推理测试,以证明其在资源受限平台上的有效性。我们为可变DDGNN结构提供了一个全面的消融研究,以验证我们的模型设计。我们的系统也优于三种最新的雷达专用方法,而无需重采样或帧聚合器。
🔬 方法详解
问题定义:毫米波雷达人体活动识别中,由于毫米波信号的特性,点云数据呈现稀疏性和尺寸不一致性。现有的方法通常直接采用为稠密点云设计的视觉领域的预处理算法,忽略了毫米波雷达数据的特殊性,导致特征提取效率不高,影响识别精度。
核心思路:论文的核心思路是利用图神经网络来建模毫米波雷达点云的时空关系。通过构建星型图,将每个雷达点与一个中心点连接,从而显式地表示点与点之间的相对位置关系。然后,利用离散动态图神经网络(DDGNN)来学习这些图结构中的特征,从而克服点云的稀疏性和尺寸可变性带来的挑战。
技术框架:该方法主要包含以下几个阶段:1) 点云预处理:对原始毫米波雷达点云进行必要的滤波和降噪处理。2) 星型图构建:在每一帧点云中,人工添加一个静态中心点,并将该帧中的所有雷达点与该中心点连接,形成星型图。连续帧之间也通过中心点建立连接,从而构建时空星型图。3) DDGNN特征学习:使用DDGNN学习星型图中的节点和边的特征表示。DDGNN能够处理可变大小的图结构,并提取时空动态特征。4) 活动分类:将DDGNN学习到的特征输入到分类器中,进行人体活动识别。
关键创新:该方法最重要的创新点在于提出了基于星型图的图表示方法,以及利用DDGNN进行特征学习。星型图能够有效地表示毫米波雷达点云的相对位置关系,而DDGNN能够处理可变大小的图结构,并提取时空动态特征。与现有方法相比,该方法不需要对点云进行重采样或帧聚合,能够更有效地利用原始数据的信息。
关键设计:星型图的中心点位置是手动添加的,其坐标可以设置为点云的质心或者其他固定位置。DDGNN的网络结构可以根据具体任务进行调整,例如可以采用多层图卷积网络和池化层来提取更高级别的特征。损失函数可以采用交叉熵损失函数,用于训练分类器。论文中还进行了消融实验,验证了不同DDGNN结构对性能的影响。
📊 实验亮点
实验结果表明,该方法在真实HAR数据集上取得了94.27%的总体分类精度,接近基于视觉的骨骼数据(97.25%)的性能。该方法优于其他基于毫米波雷达的基线方法,并且无需重采样或帧聚合等预处理步骤。此外,该方法在Raspberry Pi 4上的推理测试表明其在资源受限平台上的有效性。
🎯 应用场景
该研究成果可应用于智能家居、养老监护、安防监控等领域。通过毫米波雷达感知人体活动,无需穿戴设备,保护用户隐私。在智能家居中,可用于自动调节设备;在养老监护中,可用于检测老人跌倒等异常情况;在安防监控中,可用于识别入侵行为。未来,该技术有望与物联网设备集成,实现更智能化的应用。
📄 摘要(原文)
Human activity recognition (HAR) requires extracting accurate spatial-temporal features with human movements. A mmWave radar point cloud-based HAR system suffers from sparsity and variable-size problems due to the physical features of the mmWave signal. Existing works usually borrow the preprocessing algorithms for the vision-based systems with dense point clouds, which may not be optimal for mmWave radar systems. In this work, we proposed a graph representation with a discrete dynamic graph neural network (DDGNN) to explore the spatial-temporal representation of human movement-related features. Specifically, we designed a star graph to describe the high-dimensional relative relationship between a manually added static center point and the dynamic mmWave radar points in the same and consecutive frames. We then adopted DDGNN to learn the features residing in the star graph with variable sizes. Experimental results demonstrated that our approach outperformed other baseline methods using real-world HAR datasets. Our system achieved an overall classification accuracy of 94.27\%, which gets the near-optimal performance with a vision-based skeleton data accuracy of 97.25\%. We also conducted an inference test on Raspberry Pi~4 to demonstrate its effectiveness on resource-constraint platforms. \sh{ We provided a comprehensive ablation study for variable DDGNN structures to validate our model design. Our system also outperformed three recent radar-specific methods without requiring resampling or frame aggregators.