Contrastive Learning with Spectrum Information Augmentation in Abnormal Sound Detection

📄 arXiv: 2509.15570v1 📥 PDF

作者: Xinxin Meng, Jiangtao Guo, Yunxiang Zhang, Shun Huang

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-09-19

备注: Accepted CVIPPR 2024 April Xiamen China


💡 一句话要点

提出基于频谱信息增强的对比学习方法,用于异常声音检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 异常声音检测 对比学习 频谱分析 数据增强 高频信息 低频信息 无监督学习

📋 核心要点

  1. 现有异常声音检测方法难以有效学习正常数据分布,尤其是在噪声干扰下。
  2. 通过对比学习和高频信息增强,使模型更关注代表正常状态的低频信息。
  3. 实验表明,该方法在DCASE 2020和2022 Task 2数据集上均取得了优异性能。

📝 摘要(中文)

本文针对无监督异常声音检测问题,提出了一种基于异常值暴露的方法。该方法的核心在于使模型学习正常数据的分布空间。基于生物感知和数据分析,发现异常音频和噪声通常具有更高的频率。因此,我们提出了一种针对对比学习中高频信息的数据增强方法。这使得模型更加关注音频的低频信息,这些信息代表了机器的正常运行模式。我们在DCASE 2020 Task 2上评估了所提出的方法,结果表明我们的方法优于该数据集上使用的其他对比学习方法。我们还在DCASE 2022 Task 2数据集上评估了我们方法的泛化能力。

🔬 方法详解

问题定义:异常声音检测旨在识别与正常声音不同的异常声音。现有方法,特别是基于对比学习的方法,在学习正常声音的分布时,容易受到噪声和异常高频信息的干扰,导致模型无法准确区分正常和异常声音。

核心思路:论文的核心思路是通过数据增强,使模型更加关注正常声音的低频成分。作者观察到异常声音和噪声通常包含更高频率的信息,因此通过增强高频信息,可以迫使模型更多地依赖低频信息进行判断,从而提高对正常声音的识别能力。

技术框架:该方法基于对比学习框架,主要包括以下几个阶段:1) 输入音频数据;2) 对音频数据进行频谱分析;3) 应用高频信息增强的数据增强策略;4) 使用对比学习目标函数训练模型,使模型学习正常声音的低频特征表示;5) 使用训练好的模型进行异常声音检测。

关键创新:该方法最重要的创新点在于提出了针对频谱信息的数据增强策略,通过增强高频信息,引导模型关注低频信息,从而提高异常声音检测的准确性。与传统的对比学习方法相比,该方法更加关注音频的频谱特性,并针对性地设计了数据增强策略。

关键设计:关键设计在于高频信息增强的具体方式。具体实现细节未知,但可以推测可能包括:1) 增加高频成分的幅度;2) 在高频区域添加噪声;3) 对高频区域进行频谱搬移等。损失函数采用对比学习常用的InfoNCE损失或其他变体,网络结构未知,但通常采用编码器-解码器结构或Transformer结构。

📊 实验亮点

实验结果表明,该方法在DCASE 2020 Task 2数据集上优于其他对比学习方法。虽然论文中没有给出具体的性能数据和提升幅度,但强调了该方法在DCASE 2022 Task 2数据集上的泛化能力,表明该方法具有较好的鲁棒性和实用性。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于工业设备健康监测、智能安防、医疗诊断等领域。通过分析机器运行声音、环境声音或人体声音,可以及时发现潜在的异常情况,从而避免设备故障、安全事故或疾病恶化。未来,该技术有望与物联网、人工智能等技术相结合,实现更智能化的异常声音检测和预警。

📄 摘要(原文)

The outlier exposure method is an effective approach to address the unsupervised anomaly sound detection problem. The key focus of this method is how to make the model learn the distribution space of normal data. Based on biological perception and data analysis, it is found that anomalous audio and noise often have higher frequencies. Therefore, we propose a data augmentation method for high-frequency information in contrastive learning. This enables the model to pay more attention to the low-frequency information of the audio, which represents the normal operational mode of the machine. We evaluated the proposed method on the DCASE 2020 Task 2. The results showed that our method outperformed other contrastive learning methods used on this dataset. We also evaluated the generalizability of our method on the DCASE 2022 Task 2 dataset.