Investigating the Viability of Employing Multi-modal Large Language Models in the Context of Audio Deepfake Detection

📄 arXiv: 2601.00777v1 📥 PDF

作者: Akanksha Chuchra, Shukesh Reddy, Sudeepta Mishra, Abhijit Das, Abhinav Dhall

分类: cs.SD, cs.CV

发布日期: 2026-01-02

备注: Accepted at IJCB 2025


💡 一句话要点

探索多模态大语言模型在音频深度伪造检测中的可行性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频深度伪造检测 多模态大语言模型 文本提示 跨模态学习 零样本学习

📋 核心要点

  1. 现有音频深度伪造检测方法泛化能力不足,难以适应复杂多变的实际场景。
  2. 论文提出结合音频输入与文本提示,利用多模态大语言模型学习跨模态鲁棒表示。
  3. 实验表明,微调后的模型在域内数据上表现良好,验证了该方法在音频深度伪造检测中的潜力。

📝 摘要(中文)

本文旨在探索多模态大语言模型(MLLM)在音频深度伪造检测中的潜力。尽管视觉-语言模型(VLM)和MLLM在图像和视频深度伪造检测中表现出强大的泛化能力,但它们在音频深度伪造检测中的应用仍未得到充分研究。本文将音频输入与一系列文本提示相结合,通过提问-回答的方式,探索MLLM学习跨模态鲁棒表示以进行音频深度伪造检测的可行性。我们假设这种基于特征引导的推理将有助于促进更深层次的多模态理解,并实现音频深度伪造检测的鲁棒特征学习。我们评估了两个MLLM,Qwen2-Audio-7B-Instruct和SALMONN,在两种评估模式下的性能:(a)零样本和(b)微调。实验表明,将音频与多提示方法相结合可能是音频深度伪造检测的可行方法。实验结果表明,模型在没有特定任务训练的情况下表现不佳,并且难以泛化到域外数据。然而,它们在少量监督的域内数据上取得了良好的性能,表明其在音频深度伪造检测方面具有良好的潜力。

🔬 方法详解

问题定义:音频深度伪造检测旨在识别经过篡改或合成的音频,现有方法在跨数据集和真实场景中泛化能力较弱。痛点在于缺乏能够有效融合音频特征和语义信息的模型,难以应对复杂的伪造技术。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的强大跨模态理解能力,将音频信息与文本提示相结合,引导模型学习音频中的伪造痕迹。通过文本提示,可以为模型提供关于音频内容和潜在伪造方式的先验知识,从而提高检测的准确性和鲁棒性。

技术框架:整体框架包括音频输入、文本提示、MLLM模型和二分类决策四个主要模块。首先,将音频转换为适当的表示形式(例如,频谱图)。然后,设计一系列文本提示,例如“这段音频是真实的吗?”或“这段音频是否经过深度伪造?”。接下来,将音频表示和文本提示输入到MLLM模型中进行处理。最后,模型输出一个二元决策,指示音频是真实的还是伪造的。

关键创新:最重要的技术创新点在于将多模态大语言模型应用于音频深度伪造检测,并探索了文本提示对模型性能的影响。与传统的音频深度伪造检测方法相比,该方法能够更好地融合音频特征和语义信息,从而提高检测的准确性和鲁棒性。

关键设计:论文使用了Qwen2-Audio-7B-Instruct和SALMONN两个MLLM模型。文本提示的设计是关键,论文探索了多种提示方式,包括基于问题-回答的提示和基于特征引导的提示。损失函数采用标准的二元交叉熵损失函数。模型的训练采用微调策略,即在预训练的MLLM模型的基础上,使用音频深度伪造数据集进行微调。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在域内数据上,经过微调的MLLM模型能够取得良好的性能,验证了该方法在音频深度伪造检测中的潜力。具体而言,模型在少量监督的情况下,能够显著提高检测的准确率和召回率。然而,模型在没有特定任务训练的情况下表现不佳,并且难以泛化到域外数据,表明需要进一步研究如何提高模型的泛化能力。

🎯 应用场景

该研究成果可应用于打击网络诈骗、保护知识产权、维护社会安全等领域。通过提高音频深度伪造检测的准确性和鲁棒性,可以有效防止恶意行为者利用深度伪造技术进行欺诈、诽谤等活动,维护社会诚信和公共利益。未来,该技术有望集成到各种安全系统中,例如身份验证系统、内容审核系统等。

📄 摘要(原文)

While Vision-Language Models (VLMs) and Multimodal Large Language Models (MLLMs) have shown strong generalisation in detecting image and video deepfakes, their use for audio deepfake detection remains largely unexplored. In this work, we aim to explore the potential of MLLMs for audio deepfake detection. Combining audio inputs with a range of text prompts as queries to find out the viability of MLLMs to learn robust representations across modalities for audio deepfake detection. Therefore, we attempt to explore text-aware and context-rich, question-answer based prompts with binary decisions. We hypothesise that such a feature-guided reasoning will help in facilitating deeper multimodal understanding and enable robust feature learning for audio deepfake detection. We evaluate the performance of two MLLMs, Qwen2-Audio-7B-Instruct and SALMONN, in two evaluation modes: (a) zero-shot and (b) fine-tuned. Our experiments demonstrate that combining audio with a multi-prompt approach could be a viable way forward for audio deepfake detection. Our experiments show that the models perform poorly without task-specific training and struggle to generalise to out-of-domain data. However, they achieve good performance on in-domain data with minimal supervision, indicating promising potential for audio deepfake detection.