Adapting Text LLMs to Speech via Multimodal Depth Up-Scaling
作者: Kazuki Yano, Jun Suzuki, Shinji Watanabe
分类: cs.CL
发布日期: 2026-04-01
💡 一句话要点
提出多模态深度向上扩展方法,提升文本LLM在语音任务上的性能并缓解文本能力退化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音识别 大型语言模型 多模态学习 深度向上扩展 持续预训练
📋 核心要点
- 现有方法在语音数据上持续预训练文本LLM时,容易导致原始文本能力的显著下降。
- 提出多模态深度向上扩展,通过在冻结的文本LLM中插入新的Transformer层,仅训练新增层来适配语音数据。
- 实验表明,该方法在保证ASR性能的同时,显著降低了文本能力退化,并减少了可训练参数。
📝 摘要(中文)
本文提出了一种多模态深度向上扩展方法,旨在将预训练的文本大型语言模型(LLM)适配到语音语言模型(Speech LM),同时避免在语音数据上持续预训练时常见的文本能力退化问题。该方法是持续LLM预训练中一种新兴策略的扩展,将新的Transformer层插入到冻结的文本LLM中,并且只在语音数据上训练新增的层。在48k小时的英语自动语音识别(ASR)数据上,使用SmolLM2-360M和SmolLM2-1.7B进行的实验表明,深度向上扩展实现了与完全微调相当的ASR性能,同时比完全微调和低秩适应(LoRA)引起的文本退化要少得多。进一步表明,将专为语音识别设计的E-Branchformer架构作为插入层,可以在更大的模型上实现与完全微调相匹配或超越的ASR性能,同时减少超过75%的文本退化,且可训练参数减少60%。
🔬 方法详解
问题定义:论文旨在解决将预训练的文本LLM迁移到语音领域时,直接在语音数据上进行微调或持续预训练导致原始文本能力严重退化的问题。现有方法如完全微调和LoRA虽然可以提升语音任务性能,但会显著损害LLM原有的文本生成、理解等能力。
核心思路:论文的核心思路是冻结预训练的文本LLM,只训练新增的、专门用于处理语音数据的Transformer层。通过这种方式,可以利用预训练LLM强大的文本知识,同时避免在训练语音数据时修改原始的文本参数,从而缓解文本能力退化。
技术框架:整体框架包括一个预训练的、被冻结的文本LLM,以及插入到该LLM中的若干新的Transformer层(或E-Branchformer层)。语音数据首先经过特征提取(例如,梅尔频谱),然后输入到新增的Transformer层进行训练。文本LLM的参数保持不变,只更新新增层的参数。
关键创新:关键创新在于“深度向上扩展”的思想,即通过增加模型深度的方式来引入语音信息,而不是直接修改预训练的文本参数。这种方法能够更好地保留原始LLM的文本能力,同时学习到语音相关的知识。此外,使用E-Branchformer架构作为插入层也是一个创新点,E-Branchformer是专门为语音识别设计的,能够更有效地处理语音数据。
关键设计:论文的关键设计包括:1) 选择合适的Transformer层数作为新增层;2) 使用E-Branchformer架构作为新增层,以提升语音识别性能;3) 冻结预训练文本LLM的所有参数,只训练新增层的参数;4) 使用标准的语音识别损失函数(例如,连接时序分类CTC)来训练新增层。
🖼️ 关键图片
📊 实验亮点
实验结果表明,多模态深度向上扩展方法在48k小时的英语ASR数据上,使用SmolLM2-360M和SmolLM2-1.7B模型时,实现了与完全微调相当的ASR性能,同时显著降低了文本能力退化。使用E-Branchformer作为插入层时,在更大的模型上实现了与完全微调相匹配或超越的ASR性能,同时减少了超过75%的文本退化,且可训练参数减少60%。
🎯 应用场景
该研究成果可应用于语音助手、语音搜索、语音翻译等领域。通过将预训练的文本LLM适配到语音任务,可以提升这些应用在语音理解和生成方面的性能,同时保持其原有的文本处理能力。该方法还有助于构建更通用、更强大的多模态语言模型。
📄 摘要(原文)
Adapting pre-trained text Large Language Models (LLMs) into Speech Language Models (Speech LMs) via continual pretraining on speech data is promising, but often degrades the original text capabilities. We propose Multimodal Depth Upscaling, an extension of an emerging strategy in continual LLM pre-training, where new transformer layers are inserted into a frozen text LLM and only the added layers are trained on speech data. Experiments with SmolLM2-360M and SmolLM2-1.7B on 48k hours of English Automatic Speech Recognition (ASR) data show that depth up-scaling achieves ASR comparable to full fine-tuning while causing far less text degradation than both full fine-tuning and Low-Rank Adaptation (LoRA). We further show that incorporating E-Branchformer, an architecture designed for speech recognition, as the inserted layers achieves ASR that matches or surpasses full fine-tuning on the larger model while reducing text degradation by over 75% with 60% fewer trainable parameters.