Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting
作者: Kaiqiang Xiong, Rui Peng, Jiahao Wu, Zhanke Wang, Jie Liang, Xiaoyun Zheng, Feng Gao, Ronggang Wang
分类: cs.CV
发布日期: 2026-03-03
💡 一句话要点
MVD-HuGaS:基于多视角扩散模型和高斯溅射的单图三维人体重建
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 三维人体重建 高斯溅射 多视角扩散模型 单视角重建 相机位姿估计
📋 核心要点
- 现有单图三维人体重建方法易产生伪影,如结构扁平化或过度平滑,且泛化性差。
- MVD-HuGaS利用多视角扩散模型生成多视角图像,并联合优化三维高斯和相机位姿。
- 实验表明,MVD-HuGaS在Thuman2.0和2K2K数据集上实现了单视角三维人体渲染的SOTA性能。
📝 摘要(中文)
本文提出了一种名为MVD-HuGaS的方法,旨在通过多视角人体扩散模型,实现从单张图像进行自由视角的三维人体渲染。该方法首先利用增强的多视角扩散模型从单张参考图像生成多视角图像,该模型在高品质的三维人体数据集上进行了微调,以融入三维几何先验和人体结构先验。为了从稀疏生成的多视角图像中推断精确的相机位姿以进行重建,引入了一个对齐模块,以促进三维高斯和相机位姿的联合优化。此外,还提出了一个基于深度的面部失真缓解模块,以细化生成的面部区域,从而提高重建的整体保真度。最后,利用细化的多视角图像及其精确的相机位姿,MVD-HuGaS优化目标人体的三维高斯,以实现高保真度的自由视角渲染。在Thuman2.0和2K2K数据集上的大量实验表明,所提出的MVD-HuGaS在单视角三维人体渲染方面实现了最先进的性能。
🔬 方法详解
问题定义:单图三维人体重建是一个极具挑战性的问题。现有方法,特别是依赖扩散模型的方法,容易产生不自然的伪影,例如人体结构扁平化或过度平滑的结果,这是由于来自多个视角的不一致先验造成的。此外,这些方法在实际场景中的泛化能力也存在不足。
核心思路:MVD-HuGaS的核心思路是利用多视角扩散模型从单张图像生成多个视角的图像,从而为三维重建提供更丰富的几何信息。通过在高质量3D人体数据集上微调扩散模型,可以有效融入3D几何先验和人体结构先验,从而改善重建质量。同时,联合优化3D高斯和相机位姿,可以提高相机位姿的准确性,进一步提升重建效果。
技术框架:MVD-HuGaS的整体框架包含以下几个主要模块:1) 增强的多视角扩散模型:用于从单张参考图像生成多视角图像。2) 对齐模块:用于联合优化3D高斯和相机位姿。3) 基于深度的面部失真缓解模块:用于细化生成的面部区域。4) 三维高斯优化:利用细化的多视角图像及其相机位姿,优化目标人体的三维高斯表示。
关键创新:MVD-HuGaS的关键创新在于:1) 提出了一个增强的多视角扩散模型,该模型通过在高品质3D人体数据集上进行微调,能够更好地捕捉三维几何先验和人体结构先验。2) 引入了一个对齐模块,用于联合优化3D高斯和相机位姿,从而提高了相机位姿的准确性。3) 提出了一个基于深度的面部失真缓解模块,用于细化生成的面部区域,从而提高了重建的整体保真度。
关键设计:在多视角扩散模型中,使用了高质量的3D人体数据集进行微调,以增强模型对人体结构的理解。对齐模块可能采用了可微分渲染技术,以便能够通过反向传播优化相机位姿和三维高斯参数。面部失真缓解模块可能利用了深度信息来指导面部区域的修复。损失函数可能包括图像重建损失、深度一致性损失等,以保证重建结果的准确性和一致性。
🖼️ 关键图片
📊 实验亮点
MVD-HuGaS在Thuman2.0和2K2K数据集上进行了广泛的实验,结果表明该方法在单视角三维人体渲染方面取得了显著的性能提升,达到了state-of-the-art水平。具体的性能数据和对比基线在论文中进行了详细的展示,证明了MVD-HuGaS在重建质量和渲染效果方面的优越性。
🎯 应用场景
该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域,实现逼真且可自由视角观看的三维人体建模。例如,用户可以仅通过上传一张照片,即可生成自己的三维虚拟形象,并将其应用于各种虚拟场景中。该技术还有潜力应用于远程医疗、人机交互等领域,具有广阔的应用前景。
📄 摘要(原文)
3D human reconstruction from a single image is a challenging problem and has been exclusively studied in the literature. Recently, some methods have resorted to diffusion models for guidance, optimizing a 3D representation via Score Distillation Sampling(SDS) or generating a back-view image for facilitating reconstruction. However, these methods tend to produce unsatisfactory artifacts (\textit{e.g.} flattened human structure or over-smoothing results caused by inconsistent priors from multiple views) and struggle with real-world generalization in the wild. In this work, we present \emph{MVD-HuGaS}, enabling free-view 3D human rendering from a single image via a multi-view human diffusion model. We first generate multi-view images from the single reference image with an enhanced multi-view diffusion model, which is well fine-tuned on high-quality 3D human datasets to incorporate 3D geometry priors and human structure priors. To infer accurate camera poses from the sparse generated multi-view images for reconstruction, an alignment module is introduced to facilitate joint optimization of 3D Gaussians and camera poses. Furthermore, we propose a depth-based Facial Distortion Mitigation module to refine the generated facial regions, thereby improving the overall fidelity of the reconstruction. Finally, leveraging the refined multi-view images, along with their accurate camera poses, MVD-HuGaS optimizes the 3D Gaussians of the target human for high-fidelity free-view renderings. Extensive experiments on Thuman2.0 and 2K2K datasets show that the proposed MVD-HuGaS achieves state-of-the-art performance on single-view 3D human rendering.