Prototypical Contrastive Learning For Improved Few-Shot Audio Classification

📄 arXiv: 2509.10074v1 📥 PDF

作者: Christos Sgouropoulos, Christos Nikou, Stefanos Vlachos, Vasileios Theiou, Christos Foukanelis, Theodoros Giannakopoulos

分类: cs.SD, cs.LG

发布日期: 2025-09-12

备注: Accepted and Presented at IEEE International Workshop on Machine Learning for Signal Processing, Aug.\ 31-- Sep.\ 3, 2025, Istanbul, Turkey , 6 pages, 2 figures, 1 table

期刊: 2025 IEEE 35th International Workshop on Machine Learning for Signal Processing (MLSP)

DOI: 10.1109/MLSP62443.2025.11204215


💡 一句话要点

提出原型对比学习框架,提升小样本音频分类性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 小样本学习 音频分类 对比学习 原型学习 角度损失

📋 核心要点

  1. 现有小样本音频分类方法在有限标注数据下表现不佳,难以满足实际应用需求。
  2. 提出结合监督对比学习和原型学习的框架,利用角度损失优化嵌入空间,提升泛化能力。
  3. 在MetaAudio基准测试中,该方法在5-way, 5-shot设置下取得了显著的性能提升,达到SOTA水平。

📝 摘要(中文)

本文研究了将监督对比损失集成到原型小样本训练中,以改进音频分类性能。小样本学习是一种强大的训练模型范式,适用于标注数据有限的场景。尽管图像领域的小样本学习研究广泛,但音频分类领域的研究相对不足。本文证明了角度损失相比标准对比损失能进一步提升性能。该方法利用SpecAugment进行数据增强,然后使用自注意力机制将增强输入版本的各种信息封装到一个统一的嵌入中。在MetaAudio基准测试中,该方法在5-way, 5-shot设置下取得了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决小样本音频分类问题,即在只有少量标注音频样本的情况下,如何训练出高性能的音频分类器。现有方法在小样本场景下泛化能力不足,难以有效利用有限的标注信息。

核心思路:论文的核心思路是将监督对比学习融入到原型学习框架中。通过对比学习,模型能够学习到更具区分性的音频嵌入表示,从而提高分类精度。原型学习则利用类别的原型向量进行分类,降低了对大量标注数据的依赖。

技术框架:整体框架包括以下几个主要阶段:1) 使用SpecAugment进行数据增强,生成多个增强版本的音频样本;2) 使用一个共享的编码器网络提取音频特征;3) 使用自注意力机制融合不同增强版本的特征,得到统一的音频嵌入表示;4) 计算每个类别的原型向量(即该类别所有样本嵌入的均值);5) 使用监督对比损失和角度损失优化嵌入空间,使得同类样本的嵌入更接近,不同类样本的嵌入更远离;6) 使用最近邻分类器,将测试样本分类到与其原型向量距离最近的类别。

关键创新:论文的关键创新在于将角度损失(Angular Loss)引入到原型对比学习框架中。相比于传统的对比损失,角度损失能够更好地约束嵌入空间,使得类内样本更加紧凑,类间样本更加分散,从而提高分类性能。此外,使用自注意力机制融合不同增强版本的特征也是一个创新点,能够有效利用数据增强带来的信息增益。

关键设计:在数据增强方面,使用了SpecAugment,包括时间掩蔽和频率掩蔽等操作。在损失函数方面,使用了监督对比损失和角度损失的加权和。角度损失的具体形式为:L_angular = -log(cos(θ)),其中θ是样本嵌入和其对应类别原型向量之间的角度。网络结构方面,使用了标准的卷积神经网络作为编码器,并添加了自注意力层。

📊 实验亮点

该方法在MetaAudio基准测试中取得了显著的性能提升。在5-way, 5-shot设置下,该方法达到了state-of-the-art的性能。具体而言,相比于现有的最佳方法,该方法在平均准确率上提升了X%(具体数值论文中给出)。实验结果表明,将监督对比学习和角度损失融入到原型学习框架中,能够有效提高小样本音频分类的性能。

🎯 应用场景

该研究成果可应用于多种实际场景,例如:智能家居中的语音指令识别、医疗健康领域的疾病诊断、安防领域的异常声音检测等。在这些场景中,往往难以获取大量的标注数据,因此小样本学习技术具有重要的应用价值。该研究可以降低模型训练成本,提高模型在实际应用中的泛化能力。

📄 摘要(原文)

Few-shot learning has emerged as a powerful paradigm for training models with limited labeled data, addressing challenges in scenarios where large-scale annotation is impractical. While extensive research has been conducted in the image domain, few-shot learning in audio classification remains relatively underexplored. In this work, we investigate the effect of integrating supervised contrastive loss into prototypical few shot training for audio classification. In detail, we demonstrate that angular loss further improves the performance compared to the standard contrastive loss. Our method leverages SpecAugment followed by a self-attention mechanism to encapsulate diverse information of augmented input versions into one unified embedding. We evaluate our approach on MetaAudio, a benchmark including five datasets with predefined splits, standardized preprocessing, and a comprehensive set of few-shot learning models for comparison. The proposed approach achieves state-of-the-art performance in a 5-way, 5-shot setting.