TRACE: Training-Free Partial Audio Deepfake Detection via Embedding Trajectory Analysis of Speech Foundation Models

📄 arXiv: 2604.01083v1 📥 PDF

作者: Awais Khan, Muhammad Umar Farooq, Kutub Uddin, Khalid Malik

分类: cs.SD, cs.AI, cs.CV

发布日期: 2026-04-01


💡 一句话要点

提出TRACE,通过分析语音基础模型的嵌入轨迹来检测无训练的部分音频深度伪造。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频深度伪造检测 语音基础模型 无监督学习 嵌入轨迹分析 时间动态

📋 核心要点

  1. 现有音频深度伪造检测方法依赖大量标注数据和模型微调,泛化能力差,难以应对新型伪造技术。
  2. TRACE利用语音基础模型中蕴含的取证信息,通过分析嵌入轨迹的动态变化来识别拼接边界,无需训练。
  3. 实验表明,TRACE在多个数据集上取得了与有监督方法相当甚至更好的性能,尤其在未知伪造类型上表现突出。

📝 摘要(中文)

部分音频深度伪造通过将合成片段拼接至真实录音中,具有极强的欺骗性。现有检测器依赖有监督学习,需要帧级别标注,容易过拟合特定合成流程,并且需要随着新的生成模型出现而重新训练。本文认为这种监督是不必要的,并假设语音基础模型隐式地编码了取证信号:真实语音形成平滑、缓慢变化的嵌入轨迹,而拼接边界会在帧级别转换中引入突变。基于此,本文提出了TRACE,一个无需训练的框架,通过分析冻结的语音基础模型表示的一阶动态来检测部分音频深度伪造,无需任何训练、标注数据或架构修改。在跨越两种语言的四个基准测试中,TRACE在使用六个语音基础模型时表现出色。在PartialSpoof中,TRACE实现了8.08%的EER,与微调的有监督基线具有竞争力。在LlamaPartialSpoof中,TRACE超越了有监督基线(24.12% vs. 24.49% EER),且未使用任何目标领域数据。这些结果表明,语音基础模型中的时间动态为无训练音频取证提供了一种有效且泛化的信号。

🔬 方法详解

问题定义:论文旨在解决部分音频深度伪造的检测问题。现有方法主要依赖于有监督学习,需要大量的标注数据,并且容易过拟合到特定的合成方法,当出现新的合成技术时,需要重新训练模型。这导致现有方法的泛化能力较差,难以适应快速发展的音频伪造技术。

核心思路:论文的核心思路是利用语音基础模型中蕴含的取证信息。作者假设,真实语音在语音基础模型的嵌入空间中会形成平滑、缓慢变化的轨迹,而深度伪造音频中的拼接边界会导致嵌入轨迹的突变。通过分析这些轨迹的动态变化,可以有效地检测出深度伪造音频,而无需进行任何训练。

技术框架:TRACE框架主要包含以下几个步骤:1) 使用预训练的语音基础模型提取音频的帧级别嵌入表示。2) 计算连续帧之间的嵌入向量的差异,得到嵌入轨迹的一阶动态信息。3) 使用统计方法(例如,计算差异的均值和方差)来量化轨迹的平滑程度。4) 使用一个简单的分类器(例如,阈值判决)来判断音频是否为深度伪造。

关键创新:TRACE的关键创新在于它是一种无需训练的深度伪造检测方法。与传统的有监督方法相比,TRACE不需要任何标注数据,也不需要针对特定的合成方法进行训练。这使得TRACE具有更好的泛化能力和鲁棒性,能够有效地应对新型的深度伪造技术。此外,TRACE利用了语音基础模型中蕴含的取证信息,这是一种新的思路,为深度伪造检测提供了新的视角。

关键设计:TRACE的关键设计在于如何有效地量化嵌入轨迹的平滑程度。论文中使用了连续帧之间嵌入向量差异的均值和方差作为特征,这些特征能够有效地反映轨迹的动态变化。此外,论文还使用了不同的语音基础模型进行实验,验证了TRACE的有效性和泛化能力。具体来说,一阶动态信息通过计算相邻帧嵌入向量的欧氏距离得到,然后使用高斯分布对这些距离进行建模,并使用似然比检验来区分真假音频。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TRACE在PartialSpoof数据集上取得了8.08%的EER,与有监督基线相当。在更具挑战性的LlamaPartialSpoof数据集上,TRACE超越了有监督基线(24.12% vs. 24.49% EER),且无需任何目标领域数据,证明了其强大的泛化能力。

🎯 应用场景

TRACE可应用于数字取证、新闻媒体真实性验证、社交媒体内容审核等领域。该方法无需训练,易于部署,能够有效检测部分音频深度伪造,有助于维护音频信息的真实性和可靠性,防范虚假信息传播。

📄 摘要(原文)

Partial audio deepfakes, where synthesized segments are spliced into genuine recordings, are particularly deceptive because most of the audio remains authentic. Existing detectors are supervised: they require frame-level annotations, overfit to specific synthesis pipelines, and must be retrained as new generative models emerge. We argue that this supervision is unnecessary. We hypothesize that speech foundation models implicitly encode a forensic signal: genuine speech forms smooth, slowly varying embedding trajectories, while splice boundaries introduce abrupt disruptions in frame-level transitions. Building on this, we propose TRACE (Training-free Representation-based Audio Countermeasure via Embedding dynamics), a training-free framework that detects partial audio deepfakes by analyzing the first-order dynamics of frozen speech foundation model representations without any training, labeled data, or architectural modification. We evaluate TRACE on four benchmarks that span two languages using six speech foundation models. In PartialSpoof, TRACE achieves 8.08% EER, competitive with fine-tuned supervised baselines. In LlamaPartialSpoof, the most challenging benchmark featuring LLM-driven commercial synthesis, TRACE surpasses a supervised baseline outright (24.12% vs. 24.49% EER) without any target-domain data. These results show that temporal dynamics in speech foundation models provide an effective, generalize signal for training-free audio forensics.