SSVD: Structured SVD for Parameter-Efficient Fine-Tuning and Benchmarking under Domain Shift in ASR
作者: Pu Wang, Shinji Watanabe, Hugo Van hamme
分类: cs.CL, eess.AS
发布日期: 2025-09-02
备注: Accepted by IEEE ASRU 2025
💡 一句话要点
提出结构化SVD引导的微调方法SSVD,提升ASR领域迁移性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音识别 领域自适应 参数高效微调 奇异值分解 深度学习
📋 核心要点
- 现有参数高效微调方法在语音领域,尤其是在领域迁移场景下的表现验证不足。
- 提出SSVD方法,通过结构化的SVD分解,选择性旋转输入相关的奇异向量,保持输出向量不变。
- 在领域转移的语音识别任务上,SSVD方法在多种模型规模下均表现出良好的性能。
📝 摘要(中文)
参数高效微调(PEFT)已成为适应大型基础模型的可扩展解决方案。虽然低秩适应(LoRA)在语音应用中被广泛使用,但其最先进的变体,如VeRA、DoRA、PiSSA和SVFT,主要为语言和视觉任务开发,在语音方面的验证有限。本文首次在ESPnet中全面集成和基准测试了这些PEFT方法。我们进一步提出了结构化SVD引导(SSVD)微调,它选择性地旋转输入相关的右奇异向量,同时保持输出相关的向量固定,以保留语义映射。这种设计能够以最少的训练参数和更高的效率实现鲁棒的领域自适应。我们在领域转移的语音识别任务上评估了所有方法,包括儿童语音和方言变异,模型规模从0.1B到2B。所有实现都在ESPnet中发布,以支持可重复性和未来的工作。
🔬 方法详解
问题定义:论文旨在解决语音识别(ASR)中,当训练数据和测试数据存在领域差异(domain shift)时,如何高效地微调预训练模型,使其适应新的领域。现有的参数高效微调方法,如LoRA及其变体,主要针对语言和视觉任务设计,在语音领域的有效性,尤其是在领域迁移场景下的有效性,缺乏充分的验证。
核心思路:论文的核心思路是利用结构化的奇异值分解(SVD),有选择性地调整模型参数,以适应新的领域。具体来说,SSVD方法旨在保留模型中与输出相关的语义映射,同时调整与输入相关的特征表示,从而实现高效的领域自适应。
技术框架:SSVD方法在现有的参数高效微调框架(如LoRA)的基础上进行改进。其整体流程包括:首先,对模型的权重矩阵进行SVD分解;然后,选择性地旋转与输入相关的右奇异向量,而保持与输出相关的左奇异向量固定;最后,使用领域相关的数据对调整后的模型进行微调。该方法可以集成到ESPnet等语音识别工具包中。
关键创新:SSVD方法的关键创新在于其结构化的SVD分解和选择性旋转策略。与传统的低秩分解方法不同,SSVD方法不是简单地学习低秩矩阵,而是通过SVD分解将权重矩阵分解为输入和输出相关的部分,并只调整输入相关的部分。这种方法能够更有效地保留模型的语义信息,并提高领域自适应的效率。
关键设计:SSVD方法的关键设计包括:1) 使用SVD分解将权重矩阵分解为输入和输出相关的部分;2) 设计了一种选择性旋转策略,只调整与输入相关的右奇异向量,而保持与输出相关的左奇异向量固定;3) 将SSVD方法集成到ESPnet工具包中,方便研究人员使用和扩展。
📊 实验亮点
实验结果表明,SSVD方法在领域转移的语音识别任务上取得了显著的性能提升。例如,在儿童语音识别和方言变异等任务上,SSVD方法在多种模型规模下均优于现有的参数高效微调方法,如LoRA、VeRA等。实验结果还表明,SSVD方法能够以更少的训练参数实现更好的领域自适应效果。
🎯 应用场景
该研究成果可应用于各种语音识别场景,尤其是在数据分布存在差异的情况下,例如口音迁移、儿童语音识别等。通过SSVD方法,可以高效地将预训练的语音识别模型迁移到新的领域,降低模型训练成本,提高语音识别系统的鲁棒性和泛化能力。该方法还有潜力应用于其他语音处理任务,如语音合成、语音增强等。
📄 摘要(原文)
Parameter-efficient fine-tuning (PEFT) has emerged as a scalable solution for adapting large foundation models. While low-rank adaptation (LoRA) is widely used in speech applications, its state-of-the-art variants, e.g., VeRA, DoRA, PiSSA, and SVFT, are developed mainly for language and vision tasks, with limited validation in speech. This work presents the first comprehensive integration and benchmarking of these PEFT methods within ESPnet. We further introduce structured SVD-guided (SSVD) fine-tuning, which selectively rotates input-associated right singular vectors while keeping output-associated vectors fixed to preserve semantic mappings. This design enables robust domain adaptation with minimal trainable parameters and improved efficiency. We evaluate all methods on domain-shifted speech recognition tasks, including child speech and dialectal variation, across model scales from 0.1B to 2B. All implementations are released in ESPnet to support reproducibility and future work.