SVG-Head: Hybrid Surface-Volumetric Gaussians for High-Fidelity Head Reconstruction and Real-Time Editing

📄 arXiv: 2508.09597v2 📥 PDF

作者: Heyi Sun, Cong Wang, Tian-Xing Xu, Jingwei Huang, Di Kang, Chunchao Guo, Song-Hai Zhang

分类: cs.CV

发布日期: 2025-08-13 (更新: 2025-08-15)

备注: Accepted by ICCV 2025. Project page: https://heyy-sun.github.io/SVG-Head/


💡 一句话要点

提出SVG-Head以解决高保真头部重建与实时编辑问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高保真渲染 实时编辑 高斯表示 虚拟形象 增强现实 计算机视觉 图形学

📋 核心要点

  1. 现有方法在头部重建和编辑中存在几何与外观建模交织的问题,导致实时编辑困难。
  2. SVG-Head通过混合表面和体积高斯的方式,明确建模几何形状并解耦纹理图像,提升编辑灵活性。
  3. 在NeRSemble数据集上的实验结果显示,SVG-Head实现了高保真渲染,并首次支持高斯头部虚拟形象的实时外观编辑。

📝 摘要(中文)

创建高保真且可编辑的头部虚拟形象是计算机视觉和图形学中的一项重要挑战,推动了许多增强现实和虚拟现实应用的发展。尽管近期的进展已实现了逼真的渲染和合理的动画,但头部编辑,尤其是实时外观编辑,仍然面临挑战。为此,本文提出了表面-体积高斯头部虚拟形象(SVG-Head),一种新颖的混合表示方法,明确建模几何形状,并利用解耦的纹理图像捕捉全局外观。实验表明,SVG-Head不仅生成高保真的渲染结果,还首次为高斯头部虚拟形象提供明确的纹理图像,并支持实时外观编辑。

🔬 方法详解

问题定义:本文旨在解决高保真头部重建与实时外观编辑中的几何与外观建模交织问题,现有方法难以实现高效的实时编辑。

核心思路:提出SVG-Head,采用表面和体积高斯的混合表示,明确建模几何形状,同时利用解耦的纹理图像捕捉全局外观,从而实现实时编辑。

技术框架:SVG-Head的整体架构包括表面高斯和体积高斯两部分,表面高斯用于建模头部外观,体积高斯则增强非朗伯区域的重建质量。此外,采用网格感知的高斯UV映射方法,结合FLAME网格的UV坐标,实现清晰的纹理图像和实时渲染速度。

关键创新:SVG-Head的主要创新在于首次为高斯头部虚拟形象提供明确的纹理图像,并支持实时外观编辑,这在现有方法中尚未实现。

关键设计:在设计中,采用分层优化策略以追求重建质量和编辑灵活性的最佳性能,关键参数设置和损失函数的选择也经过精心设计,以确保模型的高效性和准确性。

📊 实验亮点

在NeRSemble数据集上的实验结果表明,SVG-Head生成的渲染结果具有高保真度,并且在实时外观编辑方面表现出色,首次实现了高斯头部虚拟形象的明确纹理图像,显著提升了编辑灵活性和渲染速度。

🎯 应用场景

SVG-Head的研究成果在增强现实和虚拟现实应用中具有广泛的潜在应用价值,能够为用户提供高保真的虚拟头部形象,支持实时的个性化编辑。这将推动社交媒体、游戏以及在线教育等领域的虚拟形象交互体验的提升。

📄 摘要(原文)

Creating high-fidelity and editable head avatars is a pivotal challenge in computer vision and graphics, boosting many AR/VR applications. While recent advancements have achieved photorealistic renderings and plausible animation, head editing, especially real-time appearance editing, remains challenging due to the implicit representation and entangled modeling of the geometry and global appearance. To address this, we propose Surface-Volumetric Gaussian Head Avatar (SVG-Head), a novel hybrid representation that explicitly models the geometry with 3D Gaussians bound on a FLAME mesh and leverages disentangled texture images to capture the global appearance. Technically, it contains two types of Gaussians, in which surface Gaussians explicitly model the appearance of head avatars using learnable texture images, facilitating real-time texture editing, while volumetric Gaussians enhance the reconstruction quality of non-Lambertian regions (e.g., lips and hair). To model the correspondence between 3D world and texture space, we provide a mesh-aware Gaussian UV mapping method, which leverages UV coordinates given by the FLAME mesh to obtain sharp texture images and real-time rendering speed. A hierarchical optimization strategy is further designed to pursue the optimal performance in both reconstruction quality and editing flexibility. Experiments on the NeRSemble dataset show that SVG-Head not only generates high-fidelity rendering results, but also is the first method to obtain explicit texture images for Gaussian head avatars and support real-time appearance editing.