Speech LLMs are Contextual Reasoning Transcribers
作者: Keqi Deng, Ruchao Fan, Bo Ren, Yiming Wang, Jinyu Li
分类: cs.CL
发布日期: 2026-04-01
💡 一句话要点
提出CoT-ASR,利用思维链提升语音LLM的上下文推理转录能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音识别 大型语言模型 思维链 上下文推理 模态适配 自动语音识别 LLM CoT-ASR
📋 核心要点
- 传统ASR难以有效利用LLM的知识和上下文理解能力,主要依赖直接的语音到文本映射。
- CoT-ASR通过构建推理链,使LLM先分析语音生成上下文,再进行语音识别,实现更智能的转录。
- 实验表明,CoT-ASR相比标准LLM-ASR,在WER和EER上分别降低了8.7%和16.9%。
📝 摘要(中文)
本文提出了一种名为思维链ASR(CoT-ASR)的方法,旨在有效利用大型语言模型(LLM)在自动语音识别(ASR)中的丰富知识和上下文理解能力。与传统的直接语音到文本映射不同,CoT-ASR构建了一个推理链,使LLM能够首先分析输入语音并生成上下文分析,从而充分发挥其生成能力。通过这种上下文推理,CoT-ASR能够执行更明智的语音识别,并在一次传递中完成推理和转录。此外,CoT-ASR自然支持用户引导的转录,可以无缝地整合用户提供的上下文来指导转录,进一步扩展了ASR的功能。为了缩小模态差距,本文引入了一种CTC引导的模态适配器,该适配器使用CTC非空白token概率来加权LLM嵌入,从而有效地将语音编码器输出与LLM的文本潜在空间对齐。实验结果表明,与标准的基于LLM的ASR相比,CoT-ASR在词错误率(WER)方面实现了8.7%的相对降低,在实体错误率(EER)方面实现了16.9%的相对降低。
🔬 方法详解
问题定义:现有的基于LLM的ASR方法主要关注直接的语音到文本的映射,未能充分利用LLM强大的上下文推理和知识储备能力。这导致在处理复杂语音场景,特别是需要理解上下文语境才能准确转录的场景时,性能受到限制。现有方法缺乏有效的机制来引导LLM进行上下文分析,从而影响了最终的转录准确性。
核心思路:CoT-ASR的核心思路是引入“思维链”(Chain-of-Thought)的概念,将语音识别过程分解为两个阶段:首先,LLM分析输入语音并生成上下文推理;然后,基于该推理进行语音转录。这种分解使得LLM能够更好地利用其生成能力和知识库,从而提高转录的准确性和鲁棒性。通过显式地生成上下文推理,CoT-ASR模拟了人类的思考过程,使得模型能够更好地理解语音的含义。
技术框架:CoT-ASR的整体框架包括以下几个主要模块:1) 语音编码器:将输入语音转换为特征表示。2) CTC引导的模态适配器:将语音编码器的输出映射到LLM的文本潜在空间,缩小模态差距。3) LLM推理模块:基于适配后的语音特征,生成上下文推理。4) LLM转录模块:基于上下文推理,生成最终的文本转录。整个过程在一个pass中完成,无需额外的训练或后处理。用户还可以提供额外的上下文信息,以引导LLM进行更准确的转录。
关键创新:CoT-ASR的关键创新在于引入了思维链推理机制,使得LLM能够显式地进行上下文分析,从而更好地利用其知识和生成能力。此外,CTC引导的模态适配器有效地缩小了语音和文本之间的模态差距,提高了特征对齐的效率。与传统的端到端ASR方法相比,CoT-ASR更具可解释性和可控性,能够更好地处理复杂语音场景。
关键设计:CTC引导的模态适配器使用CTC非空白token概率来加权LLM的嵌入,从而更好地对齐语音编码器和LLM的特征空间。具体来说,CTC的输出概率被用作注意力权重,用于加权LLM的嵌入向量。这种加权方式使得模型能够更加关注与语音内容相关的文本信息,从而提高特征对齐的准确性。此外,CoT-ASR的设计允许用户提供额外的上下文信息,以引导LLM进行更准确的转录。这种用户引导的转录功能使得CoT-ASR更具灵活性和实用性。
🖼️ 关键图片
📊 实验亮点
CoT-ASR在实验中表现出色,与标准的基于LLM的ASR相比,在词错误率(WER)方面实现了8.7%的相对降低,在实体错误率(EER)方面实现了16.9%的相对降低。这些结果表明,CoT-ASR能够有效地利用LLM的上下文推理能力,从而提高语音识别的准确性和鲁棒性。
🎯 应用场景
CoT-ASR具有广泛的应用前景,例如智能客服、会议记录、语音助手等。通过提升语音识别的准确性和上下文理解能力,CoT-ASR可以改善人机交互体验,提高工作效率。未来,CoT-ASR有望应用于更多领域,例如医疗诊断、教育培训等,为人们的生活带来更多便利。
📄 摘要(原文)
Despite extensions to speech inputs, effectively leveraging the rich knowledge and contextual understanding of large language models (LLMs) in automatic speech recognition (ASR) remains non-trivial, as the task primarily involves direct speech-to-text mapping. To address this, this paper proposes chain-of-thought ASR (CoT-ASR), which constructs a reasoning chain that enables LLMs to first analyze the input speech and generate contextual analysis, thereby fully exploiting their generative capabilities. With this contextual reasoning, CoT-ASR then performs more informed speech recognition and completes both reasoning and transcription in a single pass. Moreover, CoT-ASR naturally supports user-guided transcription: while designed to self-generate reasoning, it can also seamlessly incorporate user-provided context to guide transcription, further extending ASR functionality. To reduce the modality gap, this paper introduces a CTC-guided Modality Adapter, which uses CTC non-blank token probabilities to weight LLM embeddings, efficiently aligning speech encoder outputs with the LLM's textual latent space. Experiments show that, compared to standard LLM-based ASR, CoT-ASR achieves a relative reduction of 8.7% in word error rate (WER) and 16.9% in entity error rate (EER).