VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head Reenactment

作者: Phong Tran, Egor Zakharov, Long-Nhat Ho, Anh Tuan Tran, Liwen Hu, Hao Li

分类: cs.CV

发布日期: 2023-12-07

💡 一句话要点

提出VOODOO 3D，用于单样本3D头部重演的体绘制解耦框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D头部重演 神经辐射场 自监督学习 三平面表示 表情解耦

📋 核心要点

现有3D头部重演方法依赖线性模型进行表情解耦，导致身份泄露或表情不自然。
VOODOO 3D通过神经自监督解耦，将源图像和驱动视频帧提升到共享3D体积表示。
该方法在多种数据集上实现了最先进的性能，并能处理复杂的头部姿势和表情。

📝 摘要（中文）

本文提出了一种基于全体积神经解耦框架的3D感知单样本头部重演方法，该框架用于源外观和驱动表情的分离。我们的方法是实时的，并产生高保真和视角一致的输出，适用于基于全息显示的3D远程会议系统。现有的先进3D感知重演方法通常使用神经辐射场或3D网格来产生视角一致的外观编码，但同时，它们依赖于线性人脸模型，如3DMM，来实现与面部表情的解耦。因此，它们的重演结果通常表现出驱动者的身份泄露或具有不自然的表情。为了解决这些问题，我们提出了一种神经自监督解耦方法，该方法将源图像和驱动视频帧提升到基于三平面的共享3D体积表示中。然后，可以使用从驱动图像中提取的表情三平面自由地操纵该表示，并使用神经辐射场从任意视角渲染。我们通过在大型野外视频数据集上进行自监督学习来实现这种解耦。我们进一步引入了一种高效的微调方法，以使用相同的真实世界数据来提高3D提升的泛化性。我们在各种数据集上展示了最先进的性能，并且还在极具挑战性和多样性的主题上展示了高质量的3D感知头部重演，包括非正面头部姿势以及源和驱动的复杂表情。

🔬 方法详解

问题定义：现有的3D头部重演方法，虽然在视角一致性方面表现良好，但往往依赖于线性人脸模型（如3DMM）来实现源身份和驱动表情的解耦。这种依赖导致两个主要问题：一是驱动者的身份信息会泄露到重演结果中，二是重演的表情可能不够自然，缺乏真实感。因此，如何实现更彻底、更自然的身份和表情解耦，是本文要解决的核心问题。

核心思路：VOODOO 3D的核心思路是利用神经自监督学习，将源图像和驱动视频帧都映射到一个共享的3D体积表示空间中。这个3D空间基于三平面（tri-planes）构建，能够更好地捕捉人脸的几何结构和纹理信息。通过在这个3D空间中进行操作，可以实现更精确的表情控制和身份保持，从而避免身份泄露和表情不自然的问题。

技术框架：VOODOO 3D的整体框架包含以下几个主要模块：1) 3D提升模块：将源图像和驱动视频帧分别编码为基于三平面的3D体积表示。2) 表情提取模块：从驱动视频帧中提取表情信息，并将其表示为表情三平面。3) 表情操纵模块：利用表情三平面对源图像的3D体积表示进行操纵，从而实现表情的迁移。4) 神经渲染模块：使用神经辐射场（NeRF）从任意视角渲染操纵后的3D体积表示，生成最终的重演结果。

关键创新：VOODOO 3D最关键的创新在于其基于三平面的3D体积表示和神经自监督解耦方法。与传统的线性模型相比，三平面能够更灵活地捕捉人脸的复杂几何结构和纹理信息。而神经自监督解耦方法则避免了对人工标注数据的依赖，可以通过在大规模无标注视频数据上进行训练，自动学习到身份和表情的解耦表示。

关键设计：VOODOO 3D的关键设计包括：1) 使用三平面作为3D体积表示的基础，每个平面编码不同的特征信息。2) 设计自监督损失函数，鼓励模型学习到身份不变性和表情可控性。3) 采用神经辐射场进行渲染，实现视角一致的重演结果。4) 引入微调策略，利用真实世界数据进一步提升模型的泛化能力。

📊 实验亮点

VOODOO 3D在多个数据集上取得了state-of-the-art的性能，尤其在处理非正面头部姿势和复杂表情时，表现出显著的优势。实验结果表明，该方法能够有效避免身份泄露和表情不自然的问题，生成高质量、视角一致的3D头部重演结果。具体性能数据未知，但论文强调了其在具有挑战性的数据集上的优越性。

🎯 应用场景

VOODOO 3D具有广泛的应用前景，包括3D远程会议、虚拟化身、游戏角色定制、电影特效等。该技术可以实现高质量、实时的3D头部重演，为用户提供更逼真、更沉浸式的交互体验。未来，该技术有望应用于全息显示等新兴领域，进一步提升3D通信和娱乐的质量。

📄 摘要（原文）

We present a 3D-aware one-shot head reenactment method based on a fully volumetric neural disentanglement framework for source appearance and driver expressions. Our method is real-time and produces high-fidelity and view-consistent output, suitable for 3D teleconferencing systems based on holographic displays. Existing cutting-edge 3D-aware reenactment methods often use neural radiance fields or 3D meshes to produce view-consistent appearance encoding, but, at the same time, they rely on linear face models, such as 3DMM, to achieve its disentanglement with facial expressions. As a result, their reenactment results often exhibit identity leakage from the driver or have unnatural expressions. To address these problems, we propose a neural self-supervised disentanglement approach that lifts both the source image and driver video frame into a shared 3D volumetric representation based on tri-planes. This representation can then be freely manipulated with expression tri-planes extracted from the driving images and rendered from an arbitrary view using neural radiance fields. We achieve this disentanglement via self-supervised learning on a large in-the-wild video dataset. We further introduce a highly effective fine-tuning approach to improve the generalizability of the 3D lifting using the same real-world data. We demonstrate state-of-the-art performance on a wide range of datasets, and also showcase high-quality 3D-aware head reenactment on highly challenging and diverse subjects, including non-frontal head poses and complex expressions for both source and driver.

VOODOO 3D: Volumetric Portrait Disentanglement for One-Shot 3D Head Reenactment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册