3DiFACE: Synthesizing and Editing Holistic 3D Facial Animation

📄 arXiv: 2509.26233v1 📥 PDF

作者: Balamurugan Thambiraja, Malte Prinzler, Sadegh Aliakbarian, Darren Cosker, Justus Thies

分类: cs.GR, cs.AI, cs.CV

发布日期: 2025-09-30

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出3DiFACE,用于合成和编辑具有真实头部运动的整体3D面部动画

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 3D面部动画 语音驱动 扩散模型 风格个性化 运动编辑

📋 核心要点

  1. 现有语音驱动的3D面部动画方法难以实现精确控制和真实头部运动的个性化动画,且编辑复杂耗时。
  2. 3DiFACE提出一种完全卷积扩散模型,利用viseme级别的多样性,并结合说话风格个性化和稀疏引导运动扩散。
  3. 实验结果表明,该方法能够根据单个音频输入生成和编辑多样化的3D面部动画,并可控制保真度和多样性。

📝 摘要(中文)

现有的语音驱动3D面部动画方法在创建具有精确控制和真实头部运动的个性化3D动画方面仍然面临挑战。编辑这些动画尤其复杂且耗时,需要精确的控制,通常由高技能动画师处理。大多数现有工作侧重于控制合成动画的风格或情感,无法编辑/重新生成输入动画的某些部分。它们也忽略了多个合理的嘴唇和头部运动可以匹配相同音频输入的事实。为了应对这些挑战,我们提出了一种用于整体语音驱动3D面部动画的新方法3DiFACE。我们的方法为单个音频输入生成多样且合理的嘴唇和头部运动,并允许通过关键帧和插值进行编辑。具体来说,我们提出了一个完全卷积扩散模型,该模型可以利用我们训练语料库中viseme级别的多样性。此外,我们采用了一种说话风格个性化和一种新颖的稀疏引导运动扩散,以实现精确的控制和编辑。通过定量和定性评估,我们证明了我们的方法能够为给定的单个音频输入生成和编辑多样化的整体3D面部动画,并在高保真度和多样性之间进行控制。

🔬 方法详解

问题定义:现有语音驱动3D面部动画方法难以生成具有真实头部运动和可控风格的个性化动画,并且缺乏灵活的编辑能力,无法针对特定部分进行修改或重新生成。此外,现有方法通常忽略了同一语音输入可以对应多种合理的唇部和头部运动的可能性。

核心思路:3DiFACE的核心思路是利用扩散模型学习语音到面部动画的映射,并引入说话风格个性化和稀疏引导运动扩散机制,从而实现多样化、可控和可编辑的3D面部动画生成。通过扩散模型学习数据分布,可以生成多种可能的面部运动,而个性化和稀疏引导则提供了对动画风格和特定区域的控制能力。

技术框架:3DiFACE的整体框架包含以下几个主要模块:1) 音频特征提取模块,用于提取输入音频的特征表示;2) 扩散模型,用于学习音频特征到3D面部动画的映射;3) 说话风格个性化模块,用于控制生成动画的风格;4) 稀疏引导运动扩散模块,用于对动画的特定区域进行精确控制和编辑。整个流程是:首先提取音频特征,然后通过扩散模型生成初始动画,再通过个性化模块调整风格,最后通过稀疏引导模块进行局部编辑。

关键创新:3DiFACE的关键创新在于以下几个方面:1) 提出了一个完全卷积扩散模型,能够有效利用训练数据中的viseme级别多样性,生成更多样化的面部动画;2) 引入了说话风格个性化模块,允许用户控制生成动画的风格;3) 提出了稀疏引导运动扩散模块,实现了对动画特定区域的精确控制和编辑。这些创新使得3DiFACE能够生成更真实、可控和可编辑的3D面部动画。

关键设计:3DiFACE的关键设计包括:1) 使用完全卷积网络作为扩散模型的主干网络,以更好地捕捉时序依赖关系;2) 采用viseme级别的条件信息,引导扩散模型的生成过程;3) 设计了稀疏引导损失函数,鼓励模型在指定区域生成期望的运动;4) 通过调整扩散模型的噪声水平,控制生成动画的多样性。

📊 实验亮点

实验结果表明,3DiFACE能够生成多样且高质量的3D面部动画,在保真度和多样性之间取得了良好的平衡。通过定量评估,3DiFACE在多个指标上优于现有方法,例如在唇部运动的准确性和头部运动的真实性方面均有显著提升。定性评估也表明,3DiFACE生成的动画更自然、更具表现力,能够更好地反映说话者的情感和风格。

🎯 应用场景

3DiFACE具有广泛的应用前景,包括虚拟化身生成、游戏角色动画、电影特效制作、在线教育等领域。该技术可以用于创建更逼真、更具表现力的虚拟角色,提升用户体验,并降低动画制作的成本和难度。未来,该技术有望应用于人机交互、远程协作等领域,实现更自然、更高效的沟通。

📄 摘要(原文)

Creating personalized 3D animations with precise control and realistic head motions remains challenging for current speech-driven 3D facial animation methods. Editing these animations is especially complex and time consuming, requires precise control and typically handled by highly skilled animators. Most existing works focus on controlling style or emotion of the synthesized animation and cannot edit/regenerate parts of an input animation. They also overlook the fact that multiple plausible lip and head movements can match the same audio input. To address these challenges, we present 3DiFACE, a novel method for holistic speech-driven 3D facial animation. Our approach produces diverse plausible lip and head motions for a single audio input and allows for editing via keyframing and interpolation. Specifically, we propose a fully-convolutional diffusion model that can leverage the viseme-level diversity in our training corpus. Additionally, we employ a speaking-style personalization and a novel sparsely-guided motion diffusion to enable precise control and editing. Through quantitative and qualitative evaluations, we demonstrate that our method is capable of generating and editing diverse holistic 3D facial animations given a single audio input, with control between high fidelity and diversity. Code and models are available here: https://balamuruganthambiraja.github.io/3DiFACE