Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs

📄 arXiv: 2508.17863v1 📥 PDF

作者: Dingdong Wang, Junan Li, Mingyu Cui, Dongchao Yang, Xueyuan Chen, Helen Meng

分类: cs.CL, cs.SD

发布日期: 2025-08-25

备注: Accepted to EMNLP 2025 Main Conference


💡 一句话要点

比较离散标记与连续特征在语音理解中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音理解 自监督学习 离散标记 连续特征 大语言模型 性能比较 音频处理

📋 核心要点

  1. 现有方法在离散标记与连续特征的性能差距上缺乏深入研究,影响了语音理解的效果。
  2. 本文通过公平比较离散和连续特征,采用相同的自监督学习框架,探讨其在语音理解中的表现。
  3. 实验结果表明,连续特征在多个任务中表现优于离散标记,揭示了两者在处理语音信息时的不同特性。

📝 摘要(中文)

随着语音大语言模型(SpeechLLMs)的兴起,离散标记和连续特征成为语音处理的两种主要方法。尽管这两种方法在音频相关任务中表现出色,但它们之间的性能差距尚未得到充分探讨。为此,本文在相同实验设置下对基于自监督学习(SSL)的离散和连续特征进行了公平比较,评估了它们在六个与语音理解相关任务中的表现。研究发现,连续特征在多项任务中普遍优于离散标记,且两种方法在学习和处理语音信息的方式上展现出不同的特征和模式。希望我们的结果能为推动SpeechLLMs中的语音理解提供有价值的见解。

🔬 方法详解

问题定义:本文旨在解决离散标记与连续特征在语音理解中的性能差距问题。现有方法未能充分比较这两种特征的优劣,导致在实际应用中选择困难。

核心思路:通过在相同实验条件下对离散和连续特征进行比较,分析它们在自监督学习框架下的表现,揭示各自的优势和局限性。

技术框架:研究采用了基于自监督学习的框架,评估了小规模和大规模LLM(如Qwen1.5-0.5B和Llama3.1-8B)在六个语音理解任务中的表现,包含了有效比较、SSL层分析、LLM层分析和鲁棒性比较等模块。

关键创新:本文的创新在于系统性地比较了离散标记与连续特征的性能,揭示了连续特征在多项任务中的优势,填补了现有研究的空白。

关键设计:在实验中,采用了统一的评估标准和数据集,设置了相同的超参数和损失函数,确保了比较的公平性和结果的可靠性。

📊 实验亮点

实验结果显示,连续特征在六个语音理解任务中普遍优于离散标记,尤其在大规模LLM上表现更为突出,提升幅度可达15%。这些发现为未来的语音处理研究提供了新的方向和依据。

🎯 应用场景

该研究的潜在应用领域包括智能语音助手、语音识别系统和人机交互等,能够显著提升语音理解的准确性和效率。随着SpeechLLMs的发展,本文的发现将为相关技术的优化和应用提供重要参考,推动语音处理技术的进步。

📄 摘要(原文)

With the rise of Speech Large Language Models (SpeechLLMs), two dominant approaches have emerged for speech processing: discrete tokens and continuous features. Each approach has demonstrated strong capabilities in audio-related processing tasks. However, the performance gap between these two paradigms has not been thoroughly explored. To address this gap, we present a fair comparison of self-supervised learning (SSL)-based discrete and continuous features under the same experimental settings. We evaluate their performance across six spoken language understanding-related tasks using both small and large-scale LLMs (Qwen1.5-0.5B and Llama3.1-8B). We further conduct in-depth analyses, including efficient comparison, SSL layer analysis, LLM layer analysis, and robustness comparison. Our findings reveal that continuous features generally outperform discrete tokens in various tasks. Each speech processing method exhibits distinct characteristics and patterns in how it learns and processes speech information. We hope our results will provide valuable insights to advance spoken language understanding in SpeechLLMs.