AFD-SLU: Adaptive Feature Distillation for Spoken Language Understanding
作者: Yan Xie, Yibo Cui, Liang Xie, Erwei Yin
分类: cs.CL
发布日期: 2025-09-05
备注: 5 pages, 1 figures
💡 一句话要点
提出AFD-SLU框架,通过自适应特征蒸馏提升口语理解性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 口语理解 特征蒸馏 动态适配器 残差投影神经网络 动态蒸馏系数 对话系统 知识迁移
📋 核心要点
- 口语理解任务面临标注数据稀缺和大型语言模型计算开销大的挑战。
- 提出自适应特征蒸馏框架,利用动态适配器和动态蒸馏系数,将GTE教师模型的知识迁移到轻量级学生模型。
- 在ProSLU基准测试中,AFD-SLU取得了最先进的结果,显著提升了意图识别、槽位填充和整体准确率。
📝 摘要(中文)
口语理解(SLU)是对话系统的核心组成部分,使机器能够理解用户的语音。尽管其重要性,但由于标记训练数据的稀缺以及在实际应用中部署大型语言模型(LLM)的计算负担,开发有效的SLU系统仍然具有挑战性。为了进一步缓解这些问题,我们提出了一个自适应特征蒸馏框架,该框架将基于通用文本嵌入(GTE)的教师模型的丰富语义表示转移到轻量级的学生模型。我们的方法引入了一个配备残差投影神经网络(RPNN)的动态适配器,以对齐异构特征空间,以及一个动态蒸馏系数(DDC),该系数基于意图和槽位预测性能的实时反馈自适应地调节蒸馏强度。在基于中文配置文件的ProSLU基准上的实验表明,AFD-SLU实现了最先进的结果,意图准确率为95.67%,槽位F1得分为92.02%,总体准确率为85.50%。
🔬 方法详解
问题定义:口语理解(SLU)旨在理解用户语音中的意图和槽位信息。现有方法通常依赖于大型预训练语言模型,但计算成本高昂,且在数据稀缺场景下表现不佳。因此,如何在保证性能的同时降低模型复杂度,并有效利用少量标注数据,是当前SLU研究面临的关键问题。
核心思路:本文的核心思路是通过特征蒸馏,将大型通用文本嵌入(GTE)模型学习到的丰富语义信息迁移到轻量级的学生模型。通过这种方式,学生模型可以在保持较低计算成本的同时,获得接近教师模型的性能。关键在于如何有效地对齐教师和学生模型之间的异构特征空间,并自适应地调整蒸馏强度。
技术框架:AFD-SLU框架包含一个基于GTE的教师模型和一个轻量级的学生模型。教师模型负责提取输入文本的语义表示,学生模型则基于这些表示进行意图识别和槽位填充。框架的核心是动态适配器和动态蒸馏系数。动态适配器使用残差投影神经网络(RPNN)来对齐教师和学生模型的特征空间。动态蒸馏系数(DDC)根据意图和槽位预测的实时反馈,自适应地调整蒸馏强度。
关键创新:该论文的关键创新在于提出了动态适配器和动态蒸馏系数。动态适配器能够有效地对齐异构特征空间,使得学生模型能够更好地学习教师模型的知识。动态蒸馏系数能够根据模型的实际表现自适应地调整蒸馏强度,避免了固定蒸馏系数可能导致的欠拟合或过拟合问题。
关键设计:动态适配器采用残差投影神经网络(RPNN),包含多个线性层和非线性激活函数,用于将教师模型的特征投影到学生模型的特征空间。动态蒸馏系数(DDC)的计算方式如下:首先计算意图识别和槽位填充的损失函数,然后根据这些损失函数的值,使用一个sigmoid函数来计算蒸馏系数。蒸馏系数的取值范围在0到1之间,用于控制教师模型知识对学生模型的影响程度。
📊 实验亮点
AFD-SLU在ProSLU基准测试中取得了显著的性能提升。具体来说,意图准确率达到了95.67%,槽位F1得分达到了92.02%,整体准确率达到了85.50%。这些结果表明,AFD-SLU框架能够有效地将教师模型的知识迁移到学生模型,并在实际应用中取得良好的效果。相较于其他基线模型,AFD-SLU在各项指标上均取得了领先优势。
🎯 应用场景
AFD-SLU框架可应用于各种对话系统,如智能助手、聊天机器人和语音搜索等。通过降低模型复杂度和提高数据利用率,该方法可以帮助开发者构建更高效、更经济的口语理解系统,尤其是在资源受限的环境下。该研究的成果有助于推动人机交互技术的发展,并为更智能化的语音应用提供支持。
📄 摘要(原文)
Spoken Language Understanding (SLU) is a core component of conversational systems, enabling machines to interpret user utterances. Despite its importance, developing effective SLU systems remains challenging due to the scarcity of labeled training data and the computational burden of deploying Large Language Models (LLMs) in real-world applications. To further alleviate these issues, we propose an Adaptive Feature Distillation framework that transfers rich semantic representations from a General Text Embeddings (GTE)-based teacher model to a lightweight student model. Our method introduces a dynamic adapter equipped with a Residual Projection Neural Network (RPNN) to align heterogeneous feature spaces, and a Dynamic Distillation Coefficient (DDC) that adaptively modulates the distillation strength based on real-time feedback from intent and slot prediction performance. Experiments on the Chinese profile-based ProSLU benchmark demonstrate that AFD-SLU achieves state-of-the-art results, with 95.67% intent accuracy, 92.02% slot F1 score, and 85.50% overall accuracy.