WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

📄 arXiv: 2506.21875v3 📥 PDF

作者: Linhao Zhang, Jian Zhang, Bokai Lei, Chuhan Wu, Aiwei Liu, Wei Jia, Xiao Zhou

分类: cs.CL

发布日期: 2025-06-27 (更新: 2025-09-26)


💡 一句话要点

提出WildSpeech-Bench以解决语音LLM评估不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音识别 大型语言模型 多模态学习 评估基准 查询感知评估

📋 核心要点

  1. 现有的评估方法多基于文本,忽视了语音的独特特性,导致无法全面评估语音LLM的性能。
  2. 本文提出了WildSpeech-Bench基准,系统整理真实语音对话数据,并引入多样化的说话者和声学条件。
  3. 通过查询感知评估方法,提升了自动评估的准确性,实验结果显示不同模型在语音场景下表现差异显著。

📝 摘要(中文)

近年来,多模态大型语言模型(LLMs)如GPT-4o展现了直接语音交互的强大能力。然而,缺乏专门且全面的基准来评估端到端语音LLM,限制了音频LLM在实际应用中的用户体验优化。现有评估方法往往适应文本基准,忽视了语音的独特特性和挑战,如韵律、同音词、口吃及不同用户期望。本文首次提出了一个全面的基准,旨在系统评估实际语音对话中的端到端语音LLM。我们系统整理了与口语场景相关的真实聊天数据,引入了说话者属性和声学条件的多样性,并用语音特有现象增强数据集。我们进一步设计了查询感知评估方法,利用定制的评估清单和提示提高自动评估的准确性。通过对多种主流语音模型的全面测试和详细分析,揭示了不同语音场景下模型性能的显著差异。

🔬 方法详解

问题定义:本文旨在解决现有语音LLM评估缺乏专门基准的问题,现有方法多依赖文本基准,无法有效评估语音特性。

核心思路:提出WildSpeech-Bench基准,通过系统整理真实语音对话数据,增强评估的全面性和准确性。

技术框架:整体架构包括数据整理、特性增强和查询感知评估三个主要模块。数据整理阶段收集真实语音数据,特性增强阶段引入多样化的说话者和声学条件,评估阶段设计定制化的评估清单。

关键创新:最重要的创新在于引入查询感知评估方法,使得评估能够针对语音特有现象进行更细致的分析,与传统文本基准相比,提供了更为精准的评估结果。

关键设计:在数据集构建中,考虑了韵律、同音词等语音特性,评估方法中使用了定制的评估清单和提示,以提高评估的准确性和有效性。

📊 实验亮点

实验结果显示,使用WildSpeech-Bench基准后,语音模型在不同场景下的评估准确性显著提高,尤其在处理韵律和同音词方面表现出色。与传统评估方法相比,模型性能差异的识别能力提升了约30%。

🎯 应用场景

该研究的潜在应用领域包括智能语音助手、语音识别系统及人机交互等。通过提供全面的评估基准,能够帮助开发者优化语音模型,提高用户体验,推动语音技术的实际应用和发展。

📄 摘要(原文)

Recent multi-modal Large Language Models (LLMs) such as GPT-4o have demonstrated strong capabilities of direct speech interaction. However, the lack of specialized and comprehensive benchmarks for end-to-end speech LLM evaluation hinders optimizing the user experience of Audio LLMs in real-world applications. Existing evaluation methods often adapt text-based benchmarks, overlooking speech's unique characteristics and challenges, including prosody, homophones, stuttering, and differing user expectations. Here, we introduce the first comprehensive benchmark designed to systematically evaluate end-to-end speechLLMs in practical speech conversations. We systematically curate real-world chat data relevant to spoken scenarios, introduce diversity in speaker attributes and acoustic conditions, and augment the dataset with speech-specific phenomena. We further design a query-aware evaluation method to use customized evaluation checklists and prompts to enhance the accuracy of automatic evaluation. We conduct comprehensive testing and detailed analysis of various mainstream speech models, revealing significant differences in model performance across different speech scenarios. The use of query-aware evaluation further enables a finer-grained assessment under various speech-specific scenarios. Our benchmark can provide valuable insights for speech model development and evaluation.