Detail Enhanced Gaussian Splatting for Large-Scale Volumetric Capture

📄 arXiv: 2511.21697v1 📥 PDF

作者: Julien Philip, Li Ma, Pascal Clausen, Wenqi Xian, Ahmet Levent Taşel, Mingming He, Xueming Yu, David M. George, Ning Yu, Oliver Pilarski, Paul Debevec

分类: cs.GR

发布日期: 2025-10-31

备注: 10 pages, Accepted as a Journal paper at Siggraph Asia 2025. Webpage: https://eyeline-labs.github.io/DEGS/

DOI: 10.1145/3763336


💡 一句话要点

提出基于高斯溅射和扩散增强的细节增强方法,用于大规模体绘制。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 体绘制 高斯溅射 扩散模型 细节增强 自由视点视频

📋 核心要点

  1. 现有大规模体绘制方法难以兼顾性能捕捉范围和高分辨率细节,尤其是在面部特写等场景。
  2. 利用动态高斯溅射重建场景,并引入基于扩散模型的细节增强,提升面部特写渲染质量。
  3. 通过场景装置和面部装置分别捕捉低质量和高质量数据,用于训练细节增强模型,实现性能与质量的平衡。

📝 摘要(中文)

本文提出了一种独特的大规模、多表演者、高分辨率4D体绘制系统,能够提供逼真的自由视点视频,包括高达4K分辨率的面部特写。为了实现这一目标,我们采用了一种基于动态高斯溅射和基于扩散的细节增强的新型体绘制、重建和渲染流程。我们的流程专门设计用于满足高端媒体制作的需求。我们采用了两个捕捉装置:场景装置,用于捕捉多演员表演,但分辨率低于4K制作质量;面部装置,用于记录高保真单演员面部细节,作为细节增强的参考。我们首先使用4D高斯溅射从场景装置重建动态表演,结合新的模型设计和训练策略,以提高重建、动态范围和渲染质量。然后,为了渲染高质量的面部特写图像,我们引入了一种基于扩散的细节增强模型。该模型使用来自面部装置中记录的相同演员的高保真数据进行微调。我们使用从低质量和高质量高斯溅射(GS)模型生成的配对数据进行训练,使用低质量输入来匹配场景装置的质量,并使用高质量GS作为ground truth。我们的结果表明,该流程在弥合大规模装置的可扩展性能捕捉与电影和媒体制作所需的高分辨率标准之间的差距方面是有效的。

🔬 方法详解

问题定义:论文旨在解决大规模体绘制中,难以同时捕捉大场景和高分辨率细节的问题。现有方法通常在捕捉范围和细节质量之间做出妥协,无法满足高端媒体制作对逼真自由视点视频的需求,尤其是在面部特写等需要高细节的场景中。

核心思路:论文的核心思路是将大规模场景捕捉和高分辨率细节增强解耦。首先使用高斯溅射(Gaussian Splatting)技术重建大规模动态场景,然后在渲染阶段,利用基于扩散模型的细节增强方法,提升关键区域(如面部)的渲染质量。这种方法可以在保证整体场景渲染效率的同时,显著提升局部细节的逼真度。

技术框架:该方法包含以下几个主要阶段: 1. 场景捕捉:使用场景装置(Scene Rig)捕捉多演员表演的低分辨率数据。 2. 面部捕捉:使用面部装置(Face Rig)捕捉单演员的高分辨率面部细节数据。 3. 高斯溅射重建:使用4D高斯溅射从场景装置的数据中重建动态场景。 4. 细节增强模型训练:使用场景装置和面部装置的数据训练基于扩散模型的细节增强模型。 5. 渲染:使用高斯溅射渲染场景,并使用细节增强模型提升面部等关键区域的渲染质量。

关键创新:该方法最重要的技术创新点在于将高斯溅射和基于扩散模型的细节增强相结合。高斯溅射能够高效地重建和渲染大规模动态场景,而扩散模型则能够生成逼真的高分辨率细节。通过将两者结合,该方法能够在保证渲染效率的同时,显著提升渲染质量。与现有方法相比,该方法无需复杂的几何建模和纹理映射,能够更高效地处理大规模动态场景。

关键设计: 1. 高斯溅射模型:采用了新的模型设计和训练策略,以提高重建、动态范围和渲染质量。 2. 细节增强模型:使用基于扩散的模型,并使用来自面部装置的高保真数据进行微调。训练数据由低质量和高质量的高斯溅射模型生成,其中低质量输入匹配场景装置的质量,高质量GS作为ground truth。 3. 损失函数:使用配对数据训练细节增强模型,损失函数的设计需要考虑重建质量和细节逼真度。

📊 实验亮点

论文通过实验验证了该方法的有效性,结果表明,该方法能够显著提升面部特写等关键区域的渲染质量,同时保持整体场景的渲染效率。通过与现有方法的对比,证明了该方法在细节增强方面的优势。实验结果表明,该方法能够生成逼真的高分辨率面部细节,满足高端媒体制作的需求。

🎯 应用场景

该研究成果可广泛应用于电影制作、游戏开发、虚拟现实、增强现实等领域。它能够提供高质量的自由视点视频,让观众能够以任意角度观看表演,获得更加沉浸式的体验。此外,该技术还可以用于创建逼真的虚拟角色,用于游戏、电影等娱乐产品中。未来,该技术有望进一步发展,实现更加高效、逼真的大规模体绘制。

📄 摘要(原文)

We present a unique system for large-scale, multi-performer, high resolution 4D volumetric capture providing realistic free-viewpoint video up to and including 4K resolution facial closeups. To achieve this, we employ a novel volumetric capture, reconstruction and rendering pipeline based on Dynamic Gaussian Splatting and Diffusion-based Detail Enhancement. We design our pipeline specifically to meet the demands of high-end media production. We employ two capture rigs: the Scene Rig, which captures multi-actor performances at a resolution which falls short of 4K production quality, and the Face Rig, which records high-fidelity single-actor facial detail to serve as a reference for detail enhancement. We first reconstruct dynamic performances from the Scene Rig using 4D Gaussian Splatting, incorporating new model designs and training strategies to improve reconstruction, dynamic range, and rendering quality. Then to render high-quality images for facial closeups, we introduce a diffusion-based detail enhancement model. This model is fine-tuned with high-fidelity data from the same actors recorded in the Face Rig. We train on paired data generated from low- and high-quality Gaussian Splatting (GS) models, using the low-quality input to match the quality of the Scene Rig, with the high-quality GS as ground truth. Our results demonstrate the effectiveness of this pipeline in bridging the gap between the scalable performance capture of a large-scale rig and the high-resolution standards required for film and media production.