Construct 3D Hand Skeleton with Commercial WiFi

📄 arXiv: 2312.15507v1 📥 PDF

作者: Sijie Ji, Xuanye Zhang, Yuanqing Zheng, Mo Li

分类: cs.HC, eess.SY

发布日期: 2023-12-24

期刊: ACM SenSys 2023

DOI: 10.1145/3625687.3625812

🔗 代码/项目: GITHUB


💡 一句话要点

HandFi:利用商用WiFi构建3D手部骨骼,赋能多种应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: WiFi感知 手部骨骼重建 多任务学习 神经网络 手势识别

📋 核心要点

  1. 现有WiFi手部感知系统依赖预定义手势,缺乏细粒度信息,限制了应用范围。
  2. HandFi利用多任务学习神经网络,从WiFi信号中提取手部骨骼,克服手掌反射干扰。
  3. HandFi仅用商用WiFi即可生成2D手部掩码和3D手部姿势,性能优于现有方案。

📝 摘要(中文)

本文提出HandFi,一种利用商用WiFi设备构建手部骨骼的系统。与之前主要采用预定义手势进行模式匹配的WiFi手部感知系统不同,HandFi通过构建手部骨骼,能够支持游戏、医疗保健和智能家居等领域中各种基于WiFi的手部感知应用。从WiFi信号中提取骨骼具有挑战性,特别是由于手掌相比手指是更主要的反射体。HandFi开发了一种新颖的多任务学习神经网络,并设计了一系列定制的损失函数,以从WiFi信号中捕获低层次的手部信息。在离线训练期间,HandFi以原始WiFi信号作为输入,并使用Leap Motion提供监督。在在线使用期间,仅使用商用WiFi,HandFi就能够生成2D手部掩码以及3D手部姿势。我们证明HandFi可以作为基础模型,使开发者能够构建各种应用,例如手指跟踪和手语识别,并且优于现有的基于WiFi的解决方案。

🔬 方法详解

问题定义:现有基于WiFi的手部感知系统主要依赖于预定义的手势进行模式匹配,无法提供精细的手部动作信息,例如手指的精确位置和姿态。此外,由于手掌是主要的反射体,手指的信号容易被淹没,导致难以准确感知手指的运动。因此,如何从WiFi信号中准确提取手部骨骼信息是一个关键挑战。

核心思路:HandFi的核心思路是利用多任务学习神经网络,同时预测2D手部掩码和3D手部姿态。通过联合学习这两个任务,网络可以更好地理解WiFi信号与手部结构之间的关系。此外,HandFi还设计了一系列定制的损失函数,以增强网络对细微手部动作的感知能力,并减轻手掌反射的干扰。

技术框架:HandFi的整体框架包括离线训练和在线使用两个阶段。在离线训练阶段,HandFi以原始WiFi信号作为输入,并使用Leap Motion提供监督信息,训练多任务学习神经网络。在在线使用阶段,HandFi仅使用商用WiFi设备,将采集到的WiFi信号输入到训练好的神经网络中,即可输出2D手部掩码和3D手部姿势。

关键创新:HandFi的关键创新在于其多任务学习框架和定制的损失函数。多任务学习框架能够同时预测2D手部掩码和3D手部姿态,从而提高手部骨骼重建的准确性。定制的损失函数能够增强网络对细微手部动作的感知能力,并减轻手掌反射的干扰。与现有方法相比,HandFi能够提供更精细、更准确的手部动作信息。

关键设计:HandFi采用多层感知机(MLP)作为其神经网络结构。输入是原始的WiFi信号,包括CSI(信道状态信息)幅度值和相位值。网络包含多个全连接层,用于提取WiFi信号中的特征。为了实现多任务学习,网络输出两个分支:一个分支用于预测2D手部掩码,另一个分支用于预测3D手部姿态。HandFi使用了多种损失函数,包括掩码预测的交叉熵损失、3D姿态预测的均方误差损失,以及用于约束骨骼长度和角度的正则化损失。

📊 实验亮点

HandFi在多个实验中表现出色。例如,在手指跟踪任务中,HandFi的准确率优于现有的基于WiFi的解决方案。在手语识别任务中,HandFi也取得了显著的性能提升。实验结果表明,HandFi能够有效地从WiFi信号中提取手部骨骼信息,并支持各种下游应用。具体性能数据需要在论文中查找。

🎯 应用场景

HandFi具有广泛的应用前景,包括游戏、医疗保健和智能家居等领域。在游戏中,HandFi可以实现更自然、更精确的手部交互。在医疗保健领域,HandFi可以用于手部康复训练和远程医疗诊断。在智能家居领域,HandFi可以用于手势控制和智能设备交互。HandFi的潜在价值在于提供了一种低成本、非侵入式的手部感知解决方案,可以赋能各种人机交互应用。

📄 摘要(原文)

This paper presents HandFi, which constructs hand skeletons with practical WiFi devices. Unlike previous WiFi hand sensing systems that primarily employ predefined gestures for pattern matching, by constructing the hand skeleton, HandFi can enable a variety of downstream WiFi-based hand sensing applications in gaming, healthcare, and smart homes. Deriving the skeleton from WiFi signals is challenging, especially because the palm is a dominant reflector compared with fingers. HandFi develops a novel multi-task learning neural network with a series of customized loss functions to capture the low-level hand information from WiFi signals. During offline training, HandFi takes raw WiFi signals as input and uses the leap motion to provide supervision. During online use, only with commercial WiFi, HandFi is capable of producing 2D hand masks as well as 3D hand poses. We demonstrate that HandFi can serve as a foundation model to enable developers to build various applications such as finger tracking and sign language recognition, and outperform existing WiFi-based solutions. Artifacts can be found: https://github.com/SIJIEJI/HandFi