WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

📄 arXiv: 2603.05299v1 📥 PDF

作者: Luca Della Libera, Cem Subakan, Mirco Ravanelli

分类: cs.LG, cs.AI, cs.CL, cs.SD

发布日期: 2026-03-05

备注: 6 pages, 1 figure

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

WavSLM:通过WavLM蒸馏实现单流语音语言建模

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音语言模型 自监督学习 WavLM 蒸馏 单流建模 自回归模型 语音生成

📋 核心要点

  1. 现有语音语言模型依赖文本监督或复杂架构,偏离了文本领域有效的单流生成预训练范式。
  2. WavSLM通过量化和蒸馏WavLM表示,使用自回归的下一块预测目标进行训练,无需文本监督。
  3. WavSLM在一致性基准和语音生成方面表现出色,同时降低了参数量和数据需求,并支持流式推理。

📝 摘要(中文)

大型语言模型表明,简单的自回归训练可以产生可扩展且连贯的生成结果。然而,由于语义和声学信息的纠缠,将这种范式扩展到语音领域仍然具有挑战性。现有的大多数语音语言模型依赖于文本监督、分层token流或复杂的混合架构,这偏离了在文本领域已被证明有效的单流生成预训练范式。本文提出了WavSLM,一种通过量化和将自监督WavLM表示蒸馏到单个码本中,并优化自回归的下一块预测目标来训练的语音语言模型。WavSLM在单个token流中联合建模语义和声学信息,无需文本监督或文本预训练。尽管其结构简单,但它在一致性基准和语音生成方面取得了具有竞争力的性能,同时使用了更少的参数、更少的训练数据,并支持流式推理。

🔬 方法详解

问题定义:现有语音语言模型通常依赖于文本监督、分层token流或复杂的混合架构,这使得它们难以像文本语言模型那样进行端到端的单流生成预训练。这些方法增加了模型的复杂性,并且可能需要大量的文本数据进行训练。因此,如何设计一个简单有效的语音语言模型,能够直接从语音数据中学习语义和声学信息,是一个重要的挑战。

核心思路:WavSLM的核心思路是通过蒸馏自监督语音模型WavLM的表示,将语音信息压缩成一个离散的码本,然后利用自回归模型学习这个码本上的语言模型。这种方法避免了对文本监督的依赖,并且能够在一个统一的框架中建模语音的语义和声学信息。

技术框架:WavSLM的整体框架包括三个主要阶段:1) 使用WavLM提取语音特征;2) 将WavLM的特征量化成离散的token,构建码本;3) 使用自回归Transformer模型学习码本上的语言模型,预测下一个token。模型输入是语音片段,输出是下一个语音片段的量化表示。

关键创新:WavSLM的关键创新在于它使用单流的方式建模语音语言,避免了对文本信息的依赖。通过蒸馏WavLM的表示,模型能够学习到语音中丰富的语义和声学信息。此外,WavSLM还支持流式推理,这使得它能够应用于实时的语音生成和处理任务。

关键设计:WavSLM的关键设计包括:1) 使用Gumbel-Softmax技巧进行量化,使得模型可以进行端到端的训练;2) 使用自回归Transformer模型作为语言模型,学习码本上的token序列;3) 优化目标是最小化下一个token的预测误差,使用交叉熵损失函数。

🖼️ 关键图片

fig_0

📊 实验亮点

WavSLM在一致性基准和语音生成方面取得了具有竞争力的性能,同时使用了更少的参数和更少的训练数据。实验结果表明,WavSLM能够生成自然流畅的语音,并且能够保持语音内容的一致性。此外,WavSLM还支持流式推理,这使得它能够应用于实时的语音处理任务。

🎯 应用场景

WavSLM具有广泛的应用前景,包括语音合成、语音编辑、语音增强和语音识别等领域。它可以用于生成高质量的语音,编辑现有的语音内容,提高语音的清晰度和可懂度,以及改进语音识别的准确率。此外,WavSLM的流式推理能力使得它能够应用于实时的语音处理任务,例如实时语音翻译和实时语音助手。

📄 摘要(原文)

Large language models show that simple autoregressive training can yield scalable and coherent generation, but extending this paradigm to speech remains challenging due to the entanglement of semantic and acoustic information. Most existing speech language models rely on text supervision, hierarchical token streams, or complex hybrid architectures, departing from the single-stream generative pretraining paradigm that has proven effective in text. In this work, we introduce WavSLM, a speech language model trained by quantizing and distilling self-supervised WavLM representations into a single codebook and optimizing an autoregressive next-chunk prediction objective. WavSLM jointly models semantic and acoustic information within a single token stream without text supervision or text pretraining. Despite its simplicity, it achieves competitive performance on consistency benchmarks and speech generation while using fewer parameters, less training data, and supporting streaming inference. Demo samples are available at https://lucadellalib.github.io/wavslm-web/.