Generative Modeling of Shape-Dependent Self-Contact Human Poses

📄 arXiv: 2509.23393v1 📥 PDF

作者: Takehiko Ohkawa, Jihyun Lee, Shunsuke Saito, Jason Saragih, Fabian Prado, Yichen Xu, Shoou-I Yu, Ryosuke Furuta, Yoichi Sato, Takaaki Shiratori

分类: cs.CV

发布日期: 2025-09-27

备注: Accepted to ICCV 2025. Project page: https://tkhkaeio.github.io/projects/25-scgen


💡 一句话要点

提出基于形状条件的自接触人体姿态生成模型,提升单视角姿态估计精度。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 自接触姿态生成 人体姿态估计 形状条件建模 潜在扩散模型 自注意力机制

📋 核心要点

  1. 现有自接触人体姿态建模方法忽略了身体形状的影响,导致模型泛化能力不足,难以处理不同体型下的自接触情况。
  2. 论文提出一种基于身体形状参数调节的生成模型,利用潜在扩散模型和自注意力机制学习自接触先验,从而更准确地生成符合人体结构的自接触姿态。
  3. 实验结果表明,该方法在自接触姿态建模和单视角人体姿态估计方面均取得了显著提升,验证了形状条件的重要性。

📝 摘要(中文)

本文提出了一种考虑人体形状的自接触姿态生成模型。现有自接触数据集缺乏姿态多样性和精确的身体形状信息,限制了自接触姿态与形状之间的分析。为此,本文构建了首个包含精确身体形状注册的大规模自接触数据集Goliath-SC,包含130个受试者的383K自接触姿态。基于此数据集,提出了一种基于身体部位的潜在扩散模型,并结合自注意力机制,生成由身体形状参数调节的自接触先验。进一步将此先验融入单视角人体姿态估计中,并优化估计姿态使其产生接触。实验表明,形状条件对于成功建模自接触姿态分布至关重要,从而提高了自接触场景下的单视角姿态估计性能。

🔬 方法详解

问题定义:现有自接触人体姿态建模方法主要痛点在于忽略了人体形状的影响。不同体型的人在进行相同动作时,身体的接触情况会有显著差异。例如,胖人摸肚子和瘦人摸肚子,手的接触位置和深度是不同的。现有方法无法有效建模这种形状依赖性,导致生成的姿态不自然或不合理,限制了其在实际应用中的效果。

核心思路:论文的核心思路是利用身体形状参数作为条件,指导自接触姿态的生成。通过学习身体形状与自接触姿态之间的关系,模型可以根据不同体型生成更合理、更自然的自接触姿态。这种形状条件建模能够有效解决现有方法忽略体型差异的问题,提高模型的泛化能力。

技术框架:整体框架包含两个主要部分:数据集构建和生成模型。首先,构建大规模自接触数据集Goliath-SC,包含精确的身体形状注册信息。然后,基于此数据集训练一个生成模型,该模型采用身体部位的潜在扩散模型,并结合自注意力机制。在单视角人体姿态估计中,将生成的自接触先验作为约束,优化估计的姿态,使其更符合自接触的物理规律。

关键创新:最重要的技术创新点在于将身体形状参数作为条件融入自接触姿态生成模型中。这种形状条件建模能够有效捕捉身体形状与自接触姿态之间的复杂关系,从而生成更合理、更自然的姿态。此外,使用基于身体部位的潜在扩散模型和自注意力机制,能够更好地建模身体各部位之间的依赖关系,提高生成姿态的质量。

关键设计:在生成模型中,使用SMPL模型参数作为身体形状的表示。潜在扩散模型采用U-Net结构,并结合自注意力机制,用于学习自接触先验。损失函数包括重建损失、对抗损失和形状一致性损失,用于保证生成姿态的质量和形状的合理性。在单视角人体姿态估计中,使用生成的自接触先验作为正则化项,优化估计的姿态。

📊 实验亮点

论文构建了大规模自接触数据集Goliath-SC,包含383K自接触姿态和精确的身体形状信息。实验结果表明,提出的形状条件生成模型在自接触姿态建模方面取得了显著提升。在单视角人体姿态估计任务中,该方法能够有效提高估计精度,尤其是在自接触场景下,性能提升明显。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、动画制作等领域,生成更逼真、更自然的虚拟人物动作。此外,还可以应用于运动分析、康复训练等领域,通过分析人体姿态和接触情况,评估运动效果和康复进展。未来,该技术有望进一步扩展到其他领域,如人机交互、机器人控制等。

📄 摘要(原文)

One can hardly model self-contact of human poses without considering underlying body shapes. For example, the pose of rubbing a belly for a person with a low BMI leads to penetration of the hand into the belly for a person with a high BMI. Despite its relevance, existing self-contact datasets lack the variety of self-contact poses and precise body shapes, limiting conclusive analysis between self-contact poses and shapes. To address this, we begin by introducing the first extensive self-contact dataset with precise body shape registration, Goliath-SC, consisting of 383K self-contact poses across 130 subjects. Using this dataset, we propose generative modeling of self-contact prior conditioned by body shape parameters, based on a body-part-wise latent diffusion with self-attention. We further incorporate this prior into single-view human pose estimation while refining estimated poses to be in contact. Our experiments suggest that shape conditioning is vital to the successful modeling of self-contact pose distribution, hence improving single-view pose estimation in self-contact.