TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

📄 arXiv: 2603.06057v1 📥 PDF

作者: Soumya Mazumdar, Vineet Kumar Rakesh

分类: cs.CV, cs.AI, cs.LG, cs.SD

发布日期: 2026-03-06

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出TempoSyncDiff,用于低延迟、时序稳定的音频驱动说话人头部生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 说话人头部生成 扩散模型 教师-学生蒸馏 时序一致性 低延迟 音频驱动 边缘计算

📋 核心要点

  1. 现有说话人头部生成方法存在推理延迟高、时序不稳定(如闪烁和身份漂移)以及在复杂语音条件下音视频对齐不佳等问题。
  2. TempoSyncDiff采用教师-学生蒸馏框架,利用轻量级学生模型在少量推理步骤下实现高效生成,并通过身份锚定和时间正则化提高稳定性。
  3. 实验表明,该方法在降低推理延迟的同时,能够保持较强教师模型的重建性能,并初步验证了在边缘计算设备上部署的可行性。

📝 摘要(中文)

本文提出TempoSyncDiff,一个参考图像条件下的潜在扩散框架,旨在通过少量步骤的推理实现高效的音频驱动说话人头部生成。该方法采用教师-学生蒸馏,使用标准噪声预测目标训练的扩散教师模型指导轻量级的学生去噪器,从而减少推理步骤并提高生成稳定性。该框架结合了身份锚定和时间正则化,以减轻合成过程中的身份漂移和帧间闪烁,同时基于音素的音频条件控制提供粗略的唇部运动控制。在LRS3数据集上的实验报告了相对于VAE重建的去噪阶段组件级指标,以及初步的延迟特性,包括CPU和边缘计算测量以及边缘部署的可行性估计。结果表明,蒸馏扩散模型可以在保持较强教师模型重建性能的同时,显著降低推理延迟。该研究是朝着在受限计算环境下实现实用的基于扩散的说话人头部生成迈出的初步一步。

🔬 方法详解

问题定义:论文旨在解决音频驱动的说话人头部生成任务中,现有扩散模型推理速度慢、时序一致性差(如身份漂移和画面闪烁)以及音视频同步不准确的问题。现有方法在计算资源受限的情况下难以实现实时应用。

核心思路:论文的核心思路是利用教师-学生蒸馏,将一个强大的扩散教师模型的知识转移到一个轻量级的学生模型中,从而在保证生成质量的前提下,显著减少推理步骤,降低计算复杂度。同时,引入身份锚定和时间正则化来提高生成视频的时序一致性。

技术框架:TempoSyncDiff框架主要包含以下几个模块:1) 参考图像编码器:用于提取参考人脸的身份信息。2) 音频编码器:将输入的音频转换为音素序列,作为唇部运动的指导信号。3) 扩散教师模型:使用标准噪声预测目标进行训练,生成高质量的人脸图像。4) 扩散学生模型:通过教师模型的指导进行训练,学习在更少的推理步骤下生成高质量的人脸图像。5) 身份锚定模块:用于保持生成人脸的身份一致性。6) 时间正则化模块:用于减少生成视频的帧间闪烁。

关键创新:该论文的关键创新在于:1) 提出了基于教师-学生蒸馏的扩散模型加速方法,显著降低了推理延迟。2) 引入了身份锚定和时间正则化,有效提高了生成视频的时序一致性。3) 针对音频驱动的说话人头部生成任务,设计了基于音素的音频条件控制,提高了音视频同步的准确性。

关键设计:在教师-学生蒸馏过程中,使用了L1损失和感知损失来约束学生模型的输出与教师模型的输出尽可能接近。身份锚定模块通过计算生成人脸和参考人脸的身份嵌入之间的余弦相似度,并将其作为损失函数的一部分,来保持身份一致性。时间正则化模块通过计算相邻帧之间的光流,并对其进行平滑处理,来减少帧间闪烁。学生模型的网络结构采用了轻量级的U-Net结构,以减少计算量。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,TempoSyncDiff在LRS3数据集上实现了显著的性能提升。通过教师-学生蒸馏,推理速度大幅提升,同时保持了与教师模型相近的重建质量。在CPU和边缘计算设备上的初步测试表明,该方法具有实际部署的可行性,为低延迟的说话人头部生成提供了新的解决方案。

🎯 应用场景

该研究成果可应用于视频会议、虚拟主播、数字人、游戏角色定制等领域。通过降低延迟和提高时序稳定性,使得实时、高质量的音频驱动说话人头部生成成为可能,从而提升用户体验和交互性。未来,该技术有望在移动设备和边缘计算平台上实现广泛应用。

📄 摘要(原文)

Diffusion models have recently advanced photorealistic human synthesis, although practical talking-head generation (THG) remains constrained by high inference latency, temporal instability such as flicker and identity drift, and imperfect audio-visual alignment under challenging speech conditions. This paper introduces TempoSyncDiff, a reference-conditioned latent diffusion framework that explores few-step inference for efficient audio-driven talking-head generation. The approach adopts a teacher-student distillation formulation in which a diffusion teacher trained with a standard noise prediction objective guides a lightweight student denoiser capable of operating with significantly fewer inference steps to improve generation stability. The framework incorporates identity anchoring and temporal regularization designed to mitigate identity drift and frame-to-frame flicker during synthesis, while viseme-based audio conditioning provides coarse lip motion control. Experiments on the LRS3 dataset report denoising-stage component-level metrics relative to VAE reconstructions and preliminary latency characterization, including CPU-only and edge computing measurements and feasibility estimates for edge deployment. The results suggest that distilled diffusion models can retain much of the reconstruction behaviour of a stronger teacher while enabling substantially lower latency inference. The study is positioned as an initial step toward practical diffusion-based talking-head generation under constrained computational settings. GitHub: https://mazumdarsoumya.github.io/TempoSyncDiff