Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

📄 arXiv: 2603.02598v1 📥 PDF

作者: Taowen Zeng

分类: cs.CV

发布日期: 2026-03-03

备注: 16 pages, 3 figures, 5 tables


💡 一句话要点

提出Synthetic-Child,利用AIGC生成合成数据,解决儿童姿态估计中的隐私问题。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 儿童姿态估计 合成数据 AIGC 隐私保护 边缘部署

📋 核心要点

  1. 儿童姿态估计对AI学习设备至关重要,但获取大规模标注的儿童数据集面临伦理和隐私挑战。
  2. Synthetic-Child利用AIGC生成逼真的合成儿童图像,并自动标注关键点,无需真实儿童照片。
  3. 实验表明,在真实儿童数据上,该方法比使用成人数据训练的模型精度提升显著,且可部署在边缘设备上。

📝 摘要(中文)

针对AI学习设备中儿童姿态估计对大规模标注数据集的需求,以及获取儿童数据的伦理和隐私限制,本文提出了一种基于AIGC的合成数据管道Synthetic-Child。该管道无需真实儿童照片,即可生成逼真的儿童姿态训练图像,并带有精确的关键点标注。该管道包含四个阶段:(1)在Blender中使用可编程的3D儿童身体模型(SMPL-X)生成多样化的桌面学习姿势,通过IK约束保证解剖学合理性,并自动导出COCO格式的标注;(2)定制的PoseInjectorNode将3D骨骼信息输入到以FLUX-1 Dev为条件的双ControlNet(姿势+深度)中,合成12000张逼真图像,涵盖10种姿势类别,且标注漂移低;(3)基于ViTPose的置信度过滤和有针对性的数据增强,消除生成失败并提高鲁棒性;(4)在合成数据上微调RTMPose-M(1360万参数),并结合几何特征工程和轻量级MLP进行姿势分类,然后量化为INT8以进行实时边缘部署。在真实儿童测试集上,FP16模型达到71.2 AP,比COCO预训练的成人数据基线提高了12.5 AP。INT8量化后,模型保持70.4 AP,并在0.8-TOPS Rockchip RK3568 NPU上以22 FPS运行。与商业姿势矫正器相比,该系统在大多数测试类别中实现了更高的识别率,并且平均响应速度快约1.8倍。结果表明,精心设计的AIGC管道可以显著减少对真实儿童图像的依赖,同时实现可部署的精度,并可能应用于其他隐私敏感领域。

🔬 方法详解

问题定义:论文旨在解决儿童姿态估计中,由于数据隐私和伦理限制,难以获取大规模真实标注数据集的问题。现有方法依赖于成人数据集进行训练,导致在儿童姿态识别上的精度较低。

核心思路:论文的核心思路是利用AIGC技术生成合成的儿童姿态数据,并使用这些数据训练姿态估计模型。通过精心设计的AIGC管道,可以生成逼真且带有精确标注的合成数据,从而避免对真实儿童数据的依赖,同时提升模型在儿童姿态识别上的性能。

技术框架:Synthetic-Child管道包含四个主要阶段:(1) 3D儿童模型生成:使用Blender和SMPL-X模型生成多样化的儿童姿态,并自动导出COCO格式的标注。(2) 图像合成:使用PoseInjectorNode和双ControlNet(姿势+深度)将3D骨骼信息转换为逼真的图像。(3) 数据清洗与增强:使用ViTPose进行置信度过滤,并进行针对性的数据增强,提高数据质量和模型鲁棒性。(4) 模型训练与部署:在合成数据上微调RTMPose-M模型,并进行量化以在边缘设备上部署。

关键创新:该方法最重要的创新点在于利用AIGC技术生成高质量的合成儿童姿态数据,从而避免了对真实儿童数据的依赖。与传统的数据增强方法相比,AIGC可以生成更多样化、更逼真的数据,从而显著提升模型的泛化能力。此外,该方法还结合了几何特征工程和轻量级MLP,进一步提升了姿态分类的精度。

关键设计:在3D模型生成阶段,使用IK约束保证生成姿势的解剖学合理性。在图像合成阶段,使用双ControlNet(姿势+深度)以提高生成图像的逼真度。在数据清洗阶段,使用ViTPose进行置信度过滤,以去除生成失败的图像。在模型训练阶段,使用RTMPose-M作为基础模型,并进行微调。模型量化为INT8,以满足边缘设备的部署需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在真实儿童测试集上,使用Synthetic-Child生成的数据训练的FP16模型达到了71.2 AP,比使用COCO预训练的成人数据基线提高了12.5 AP。经过INT8量化后,模型仍然保持了70.4 AP,并在0.8-TOPS Rockchip RK3568 NPU上以22 FPS运行。与商业姿势矫正器相比,该系统在大多数测试类别中实现了更高的识别率,并且平均响应速度快约1.8倍。

🎯 应用场景

该研究成果可应用于AI学习设备、儿童健康监测、智能玩具等领域。通过合成数据训练的姿态估计模型,可以在保护儿童隐私的前提下,实现对儿童姿态的准确识别和分析,从而为儿童提供个性化的学习和健康指导。该方法也为其他隐私敏感领域的数据获取和模型训练提供了新的思路。

📄 摘要(原文)

Accurate child posture estimation is critical for AI-powered study companion devices, yet collecting large-scale annotated datasets of children is both expensive and ethically prohibitive due to privacy concerns. We present Synthetic-Child, an AIGC-based synthetic data pipeline that produces photorealistic child posture training images with ground-truth-projected keypoint annotations, requiring zero real child photographs. The pipeline comprises four stages: (1) a programmable 3D child body model (SMPL-X) in Blender generates diverse desk-study poses with IK-constrained anatomical plausibility and automatic COCO-format ground-truth export; (2) a custom PoseInjectorNode feeds 3D-derived skeletons into a dual ControlNet (pose + depth) conditioned on FLUX-1 Dev, synthesizing 12,000 photorealistic images across 10 posture categories with low annotation drift; (3) ViTPose-based confidence filtering and targeted augmentation remove generation failures and improve robustness; (4) RTMPose-M (13.6M params) is fine-tuned on the synthetic data and paired with geometric feature engineering and a lightweight MLP for posture classification, then quantized to INT8 for real-time edge deployment. On a real-child test set (n~300), the FP16 model achieves 71.2 AP -- a +12.5 AP improvement over the COCO-pretrained adult-data baseline at identical model capacity. After INT8 quantization the model retains 70.4 AP while running at 22 FPS on a 0.8-TOPS Rockchip RK3568 NPU. In a single-subject controlled comparison with a commercial posture corrector, our system achieves substantially higher recognition rates across most tested categories and responds ~1.8x faster on average. These results demonstrate that carefully designed AIGC pipelines can substantially reduce dependence on real child imagery while achieving deployment-ready accuracy, with potential applications to other privacy-sensitive domains.