VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head Reenactment

📄 arXiv: 2312.04651v1 📥 PDF

作者: Phong Tran, Egor Zakharov, Long-Nhat Ho, Anh Tuan Tran, Liwen Hu, Hao Li

分类: cs.CV

发布日期: 2023-12-07


💡 一句话要点

提出VOODOO 3D,用于单样本3D头部重演的体绘制解耦框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D头部重演 神经辐射场 自监督学习 三平面表示 表情解耦

📋 核心要点

  1. 现有3D头部重演方法依赖线性模型进行表情解耦,导致身份泄露或表情不自然。
  2. VOODOO 3D通过神经自监督解耦,将源图像和驱动视频帧提升到共享3D体积表示。
  3. 该方法在多种数据集上实现了最先进的性能,并能处理复杂的头部姿势和表情。

📝 摘要(中文)

本文提出了一种基于全体积神经解耦框架的3D感知单样本头部重演方法,该框架用于源外观和驱动表情的分离。我们的方法是实时的,并产生高保真和视角一致的输出,适用于基于全息显示的3D远程会议系统。现有的先进3D感知重演方法通常使用神经辐射场或3D网格来产生视角一致的外观编码,但同时,它们依赖于线性人脸模型,如3DMM,来实现与面部表情的解耦。因此,它们的重演结果通常表现出驱动者的身份泄露或具有不自然的表情。为了解决这些问题,我们提出了一种神经自监督解耦方法,该方法将源图像和驱动视频帧提升到基于三平面的共享3D体积表示中。然后,可以使用从驱动图像中提取的表情三平面自由地操纵该表示,并使用神经辐射场从任意视角渲染。我们通过在大型野外视频数据集上进行自监督学习来实现这种解耦。我们进一步引入了一种高效的微调方法,以使用相同的真实世界数据来提高3D提升的泛化性。我们在各种数据集上展示了最先进的性能,并且还在极具挑战性和多样性的主题上展示了高质量的3D感知头部重演,包括非正面头部姿势以及源和驱动的复杂表情。

🔬 方法详解

问题定义:现有的3D头部重演方法,虽然在视角一致性方面表现良好,但往往依赖于线性人脸模型(如3DMM)来实现源身份和驱动表情的解耦。这种依赖导致两个主要问题:一是驱动者的身份信息会泄露到重演结果中,二是重演的表情可能不够自然,缺乏真实感。因此,如何实现更彻底、更自然的身份和表情解耦,是本文要解决的核心问题。

核心思路:VOODOO 3D的核心思路是利用神经自监督学习,将源图像和驱动视频帧都映射到一个共享的3D体积表示空间中。这个3D空间基于三平面(tri-planes)构建,能够更好地捕捉人脸的几何结构和纹理信息。通过在这个3D空间中进行操作,可以实现更精确的表情控制和身份保持,从而避免身份泄露和表情不自然的问题。

技术框架:VOODOO 3D的整体框架包含以下几个主要模块:1) 3D提升模块:将源图像和驱动视频帧分别编码为基于三平面的3D体积表示。2) 表情提取模块:从驱动视频帧中提取表情信息,并将其表示为表情三平面。3) 表情操纵模块:利用表情三平面对源图像的3D体积表示进行操纵,从而实现表情的迁移。4) 神经渲染模块:使用神经辐射场(NeRF)从任意视角渲染操纵后的3D体积表示,生成最终的重演结果。

关键创新:VOODOO 3D最关键的创新在于其基于三平面的3D体积表示和神经自监督解耦方法。与传统的线性模型相比,三平面能够更灵活地捕捉人脸的复杂几何结构和纹理信息。而神经自监督解耦方法则避免了对人工标注数据的依赖,可以通过在大规模无标注视频数据上进行训练,自动学习到身份和表情的解耦表示。

关键设计:VOODOO 3D的关键设计包括:1) 使用三平面作为3D体积表示的基础,每个平面编码不同的特征信息。2) 设计自监督损失函数,鼓励模型学习到身份不变性和表情可控性。3) 采用神经辐射场进行渲染,实现视角一致的重演结果。4) 引入微调策略,利用真实世界数据进一步提升模型的泛化能力。

📊 实验亮点

VOODOO 3D在多个数据集上取得了state-of-the-art的性能,尤其在处理非正面头部姿势和复杂表情时,表现出显著的优势。实验结果表明,该方法能够有效避免身份泄露和表情不自然的问题,生成高质量、视角一致的3D头部重演结果。具体性能数据未知,但论文强调了其在具有挑战性的数据集上的优越性。

🎯 应用场景

VOODOO 3D具有广泛的应用前景,包括3D远程会议、虚拟化身、游戏角色定制、电影特效等。该技术可以实现高质量、实时的3D头部重演,为用户提供更逼真、更沉浸式的交互体验。未来,该技术有望应用于全息显示等新兴领域,进一步提升3D通信和娱乐的质量。

📄 摘要(原文)

We present a 3D-aware one-shot head reenactment method based on a fully volumetric neural disentanglement framework for source appearance and driver expressions. Our method is real-time and produces high-fidelity and view-consistent output, suitable for 3D teleconferencing systems based on holographic displays. Existing cutting-edge 3D-aware reenactment methods often use neural radiance fields or 3D meshes to produce view-consistent appearance encoding, but, at the same time, they rely on linear face models, such as 3DMM, to achieve its disentanglement with facial expressions. As a result, their reenactment results often exhibit identity leakage from the driver or have unnatural expressions. To address these problems, we propose a neural self-supervised disentanglement approach that lifts both the source image and driver video frame into a shared 3D volumetric representation based on tri-planes. This representation can then be freely manipulated with expression tri-planes extracted from the driving images and rendered from an arbitrary view using neural radiance fields. We achieve this disentanglement via self-supervised learning on a large in-the-wild video dataset. We further introduce a highly effective fine-tuning approach to improve the generalizability of the 3D lifting using the same real-world data. We demonstrate state-of-the-art performance on a wide range of datasets, and also showcase high-quality 3D-aware head reenactment on highly challenging and diverse subjects, including non-frontal head poses and complex expressions for both source and driver.