Adaptive Knowledge Distillation using a Device-Aware Teacher for Low-Complexity Acoustic Scene Classification
作者: Seung Gyu Jeong, Seong Eun Kim
分类: cs.SD, cs.AI
发布日期: 2025-09-11
💡 一句话要点
提出基于设备感知教师的自适应知识蒸馏方法,用于低复杂度声场景分类
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 声场景分类 知识蒸馏 设备鲁棒性 特征对齐 低复杂度模型
📋 核心要点
- 现有声场景分类方法难以在低复杂度约束下,同时保证对不同设备的鲁棒性,尤其是在未见设备上。
- 论文提出一种基于知识蒸馏的框架,利用双教师集成模型,并通过设备感知特征对齐损失来增强模型的泛化能力。
- 实验结果表明,该方法在DCASE 2025挑战赛的开发集上,显著优于官方基线,尤其是在未见设备上的性能提升明显。
📝 摘要(中文)
本技术报告描述了我们为DCASE 2025挑战赛的任务1(低复杂度设备鲁棒声场景分类)提交的方案。我们的工作旨在应对严格的复杂度约束以及对已见和未见设备的鲁棒泛化的双重挑战,同时利用了允许在测试时使用设备标签的新规则。我们提出的系统基于知识蒸馏框架,其中高效的CP-MobileNet学生模型从紧凑的、专门的双教师集成模型中学习。该集成模型结合了使用标准交叉熵训练的基线PaSST教师模型和一个“泛化专家”教师模型。该专家教师模型使用我们新颖的设备感知特征对齐(DAFA)损失进行训练,该损失改编自先前的工作,明确地构建了特征空间以提高设备鲁棒性。为了利用测试时设备标签的可用性,经过蒸馏的学生模型随后会经历最终的设备特定微调阶段。我们提出的系统在开发集上实现了57.93%的最终准确率,表明相对于官方基线有了显着改进,尤其是在未见设备上。
🔬 方法详解
问题定义:论文旨在解决低复杂度声场景分类任务中,模型对不同设备的鲁棒性问题,尤其是在面对未见过的设备时,现有模型的泛化能力较差。同时,需要在计算复杂度受限的情况下实现高性能。
核心思路:核心思路是利用知识蒸馏框架,让一个轻量级的学生模型(CP-MobileNet)从一个更强大的双教师集成模型中学习。通过精心设计的教师模型和训练策略,使学生模型能够更好地泛化到不同的设备,包括未见过的设备。
技术框架:整体框架包含以下几个主要阶段:1) 训练一个双教师集成模型,包括一个基线PaSST教师模型和一个“泛化专家”教师模型。2) 使用知识蒸馏技术,让CP-MobileNet学生模型从双教师模型中学习。3) 在测试时,利用可用的设备标签,对学生模型进行设备特定的微调。
关键创新:最重要的技术创新点在于“设备感知特征对齐(DAFA)损失”的设计。该损失函数显式地将特征空间结构化,使得来自不同设备的特征能够更好地对齐,从而提高模型的设备鲁棒性。与传统的知识蒸馏方法相比,DAFA损失更关注于提升模型在不同设备上的泛化能力。
关键设计:关键设计包括:1) 双教师集成模型的设计,其中一个教师模型专注于基线性能,另一个教师模型专注于泛化能力。2) DAFA损失函数的具体形式,如何将设备信息融入到损失函数中,以及如何调整损失函数的权重。3) 学生模型的选择,CP-MobileNet因其低复杂度和良好的性能而被选中。4) 设备特定微调的策略,如何有效地利用测试时可用的设备标签。
📊 实验亮点
实验结果表明,提出的系统在DCASE 2025挑战赛的开发集上实现了57.93%的最终准确率,显著优于官方基线。尤其是在未见设备上的性能提升更为明显,验证了设备感知特征对齐(DAFA)损失的有效性,以及双教师集成知识蒸馏框架的优越性。
🎯 应用场景
该研究成果可应用于各种需要低复杂度、设备鲁棒的声场景分类应用中,例如智能家居设备、移动设备上的环境感知应用、以及可穿戴设备上的声音事件检测等。通过提高模型在不同设备上的泛化能力,可以减少对特定设备数据的依赖,降低部署成本,并提升用户体验。
📄 摘要(原文)
In this technical report, we describe our submission for Task 1, Low-Complexity Device-Robust Acoustic Scene Classification, of the DCASE 2025 Challenge. Our work tackles the dual challenges of strict complexity constraints and robust generalization to both seen and unseen devices, while also leveraging the new rule allowing the use of device labels at test time. Our proposed system is based on a knowledge distillation framework where an efficient CP-MobileNet student learns from a compact, specialized two-teacher ensemble. This ensemble combines a baseline PaSST teacher, trained with standard cross-entropy, and a 'generalization expert' teacher. This expert is trained using our novel Device-Aware Feature Alignment (DAFA) loss, adapted from prior work, which explicitly structures the feature space for device robustness. To capitalize on the availability of test-time device labels, the distilled student model then undergoes a final device-specific fine-tuning stage. Our proposed system achieves a final accuracy of 57.93\% on the development set, demonstrating a significant improvement over the official baseline, particularly on unseen devices.