InpaintHuman: Reconstructing Occluded Humans with Multi-Scale UV Mapping and Identity-Preserving Diffusion Inpainting

📄 arXiv: 2601.02098v1 📥 PDF

作者: Jinlong Fan, Shanshan Zhao, Liang Zheng, Jing Zhang, Yuxiang Yang, Mingming Gong

分类: cs.CV

发布日期: 2026-01-05


💡 一句话要点

InpaintHuman:提出多尺度UV映射与保身份扩散修复,重建遮挡人体化身

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人体重建 遮挡处理 扩散模型 UV映射 身份保持 单目视频 3D高斯溅射

📋 核心要点

  1. 现有方法难以从被严重遮挡的单目视频中重建完整且可动画的3D人体化身,尤其是在几何细节和时间一致性方面。
  2. InpaintHuman提出一种多尺度UV参数化表示和保身份扩散修复模块,以实现对遮挡区域的鲁棒重建和身份保持。
  3. 实验结果表明,InpaintHuman在合成和真实数据集上均表现出优异的性能,显著提升了遮挡场景下的人体重建质量。

📝 摘要(中文)

本文提出InpaintHuman,一种从单目视频中生成高保真、完整且可动画化的人体化身的新方法,尤其针对严重遮挡情况。该方法包含两项关键创新:(i) 一种多尺度UV参数化表示,具有分层由粗到精的特征插值,能够稳健地重建遮挡区域,同时保留几何细节;(ii) 一个保身份扩散修复模块,该模块集成了文本反演和语义条件引导,用于特定主体的、时间上连贯的补全。与基于SDS的方法不同,我们的方法采用直接像素级监督,以确保身份保真度。在合成基准(PeopleSnapshot、ZJU-MoCap)和真实场景(OcMotion)上的实验表明,该方法具有竞争力的性能,并在各种姿势和视点下持续提高重建质量。

🔬 方法详解

问题定义:论文旨在解决从被严重遮挡的单目视频中重建完整、可动画的3D人体化身的问题。现有方法,特别是基于3D高斯溅射的方法,在处理不完整观测时,容易产生损坏的几何结构和时间上的不一致性,难以保证重建质量和身份一致性。

核心思路:论文的核心思路是利用多尺度UV映射来增强对遮挡区域的几何重建能力,并结合保身份的扩散模型来完成纹理和细节的补全。多尺度UV映射允许从粗到精的特征插值,从而更好地恢复遮挡区域的几何信息。保身份扩散模型则通过文本反演和语义条件引导,确保补全后的化身在身份上与原始视频中的人物保持一致。

技术框架:InpaintHuman的整体框架包含两个主要模块:多尺度UV参数化表示模块和保身份扩散修复模块。首先,利用多尺度UV映射对人体进行几何重建,尤其关注遮挡区域的恢复。然后,将重建结果输入到保身份扩散修复模块,该模块利用文本反演提取人物身份信息,并结合语义条件引导,生成时间上连贯且身份一致的补全结果。

关键创新:该方法最重要的创新点在于将多尺度UV映射和保身份扩散修复相结合,实现了对遮挡人体的高质量重建。多尺度UV映射能够有效处理遮挡带来的几何信息缺失,而保身份扩散修复则保证了补全结果的真实性和身份一致性。此外,该方法采用直接像素级监督,而非SDS(Score Distillation Sampling)方法,从而更好地控制身份保真度。

关键设计:多尺度UV映射采用分层结构,从粗到精逐步细化几何细节。保身份扩散修复模块利用文本反演提取人物身份信息,并将其作为扩散模型的条件。语义条件引导则利用分割信息来约束补全区域的内容,确保补全结果的合理性。损失函数包括几何损失、纹理损失和身份损失,以共同优化重建结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InpaintHuman在合成数据集(PeopleSnapshot、ZJU-MoCap)和真实数据集(OcMotion)上进行了评估,结果表明该方法在重建质量和身份保持方面均优于现有方法。尤其是在OcMotion数据集上,InpaintHuman能够有效地处理严重的遮挡情况,生成高质量的重建结果,显著提升了重建的视觉效果和时间一致性。

🎯 应用场景

InpaintHuman具有广泛的应用前景,包括虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于创建逼真且可定制的3D人体化身,尤其是在需要处理遮挡或不完整数据的情况下。该技术还可以应用于虚拟试衣、远程协作和个性化内容生成等场景,具有重要的实际价值和商业潜力。

📄 摘要(原文)

Reconstructing complete and animatable 3D human avatars from monocular videos remains challenging, particularly under severe occlusions. While 3D Gaussian Splatting has enabled photorealistic human rendering, existing methods struggle with incomplete observations, often producing corrupted geometry and temporal inconsistencies. We present InpaintHuman, a novel method for generating high-fidelity, complete, and animatable avatars from occluded monocular videos. Our approach introduces two key innovations: (i) a multi-scale UV-parameterized representation with hierarchical coarse-to-fine feature interpolation, enabling robust reconstruction of occluded regions while preserving geometric details; and (ii) an identity-preserving diffusion inpainting module that integrates textual inversion with semantic-conditioned guidance for subject-specific, temporally coherent completion. Unlike SDS-based methods, our approach employs direct pixel-level supervision to ensure identity fidelity. Experiments on synthetic benchmarks (PeopleSnapshot, ZJU-MoCap) and real-world scenarios (OcMotion) demonstrate competitive performance with consistent improvements in reconstruction quality across diverse poses and viewpoints.