Learning Dense Correspondence for NeRF-Based Face Reenactment

📄 arXiv: 2312.10422v2 📥 PDF

作者: Songlin Yang, Wei Wang, Yushi Lan, Xiangyu Fan, Bo Peng, Lei Yang, Jing Dong

分类: cs.CV

发布日期: 2023-12-16 (更新: 2023-12-19)

备注: Accepted by Proceedings of the AAAI Conference on Artificial Intelligence, 2024


💡 一句话要点

提出PlaneDict模块,无需3DMM先验实现基于NeRF的人脸重演

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 人脸重演 神经辐射场 NeRF 三平面 运动控制 平面字典 隐式表示

📋 核心要点

  1. 现有基于NeRF的人脸重演方法依赖3DMM先验,限制了建模能力和身份保真度。
  2. 提出PlaneDict模块,将运动条件映射到正交平面基的线性组合,实现高效运动控制。
  3. 实验表明,该方法在细粒度运动控制和身份保持方面优于现有方法。

📝 摘要(中文)

人脸重演面临的挑战在于需要在不同人脸表示之间建立密集的对应关系以进行动作迁移。最近的研究利用神经辐射场(NeRF)作为基础表示,从而增强了多视角人脸重演在照片真实感和3D一致性方面的性能。然而,在不同人脸NeRF之间建立密集的对应关系并非易事,因为隐式表示缺乏像基于网格的3D参数模型(例如,具有索引对齐顶点的3DMM)那样的ground-truth对应关系注释。虽然将3DMM空间与基于NeRF的人脸表示对齐可以实现运动控制,但由于其有限的仅人脸建模和较低的身份保真度,因此并非最优。因此,我们受到启发提出问题:我们能否在没有3D参数模型先验的情况下学习不同基于NeRF的人脸表示之间的密集对应关系?为了应对这一挑战,我们提出了一个新颖的框架,该框架采用三平面作为基本的NeRF表示,并将人脸三平面分解为三个组成部分:规范三平面、身份变形和运动。在运动控制方面,我们的主要贡献是提出了一个平面字典(PlaneDict)模块,该模块有效地将运动条件映射到可学习的正交平面基的线性加权和。据我们所知,我们的框架是第一个在没有3D参数模型先验的情况下实现单样本多视角人脸重演的方法。大量的实验表明,与以前的方法相比,我们在细粒度的运动控制和身份保持方面产生了更好的结果。

🔬 方法详解

问题定义:论文旨在解决基于NeRF的人脸重演中,如何在没有3D参数模型(如3DMM)先验的情况下,学习不同NeRF人脸表示之间的密集对应关系的问题。现有方法依赖3DMM,但3DMM建模能力有限,且身份保真度不高,限制了重演效果。

核心思路:核心思路是将人脸NeRF表示分解为规范三平面、身份变形和运动三个部分。通过学习一个平面字典(PlaneDict),将运动条件映射到一组可学习的正交平面基的线性组合,从而实现对人脸运动的控制。这种方法避免了对3DMM的依赖,能够更灵活地建模人脸,并保持更高的身份保真度。

技术框架:整体框架包括以下几个主要模块:1) 三平面表示:使用三平面作为NeRF的基础表示,将3D空间信息编码到三个正交的2D平面上。2) 分解模块:将三平面分解为规范三平面、身份变形和运动三个部分。3) PlaneDict模块:将运动条件作为输入,通过线性加权组合生成运动相关的平面形变。4) NeRF渲染模块:利用分解后的三平面和运动形变,渲染出最终的人脸图像。

关键创新:最重要的创新点是PlaneDict模块,它通过学习一组正交平面基,实现了对人脸运动的灵活控制。与现有方法依赖3DMM不同,该方法直接在NeRF空间中学习运动表示,避免了3DMM的限制。

关键设计:PlaneDict模块的关键设计包括:1) 使用正交平面基,保证运动表示的解耦性。2) 使用线性加权组合,实现运动的平滑过渡。3) 损失函数包括重构损失、身份保持损失和运动控制损失,用于优化网络参数。

📊 实验亮点

该方法在细粒度运动控制和身份保持方面优于现有方法。实验结果表明,该方法能够生成更逼真、更自然的重演效果,尤其是在复杂的面部表情和头部运动方面。与依赖3DMM的方法相比,该方法能够更好地保留原始人脸的身份特征。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、视频会议、数字人等领域。例如,可以用于创建高度逼真且可控的虚拟化身,实现更自然的远程交流和互动。此外,该技术还可以用于电影特效制作、游戏角色动画等领域,提升视觉体验。

📄 摘要(原文)

Face reenactment is challenging due to the need to establish dense correspondence between various face representations for motion transfer. Recent studies have utilized Neural Radiance Field (NeRF) as fundamental representation, which further enhanced the performance of multi-view face reenactment in photo-realism and 3D consistency. However, establishing dense correspondence between different face NeRFs is non-trivial, because implicit representations lack ground-truth correspondence annotations like mesh-based 3D parametric models (e.g., 3DMM) with index-aligned vertexes. Although aligning 3DMM space with NeRF-based face representations can realize motion control, it is sub-optimal for their limited face-only modeling and low identity fidelity. Therefore, we are inspired to ask: Can we learn the dense correspondence between different NeRF-based face representations without a 3D parametric model prior? To address this challenge, we propose a novel framework, which adopts tri-planes as fundamental NeRF representation and decomposes face tri-planes into three components: canonical tri-planes, identity deformations, and motion. In terms of motion control, our key contribution is proposing a Plane Dictionary (PlaneDict) module, which efficiently maps the motion conditions to a linear weighted addition of learnable orthogonal plane bases. To the best of our knowledge, our framework is the first method that achieves one-shot multi-view face reenactment without a 3D parametric model prior. Extensive experiments demonstrate that we produce better results in fine-grained motion control and identity preservation than previous methods.