Speech LLMs are Contextual Reasoning Transcribers

作者: Keqi Deng, Ruchao Fan, Bo Ren, Yiming Wang, Jinyu Li

分类: cs.CL

发布日期: 2026-04-01

💡 一句话要点

提出CoT-ASR，利用思维链提升语音LLM的上下文推理转录能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音识别 大型语言模型 思维链 上下文推理 模态适配 自动语音识别 LLM CoT-ASR

📋 核心要点

传统ASR难以有效利用LLM的知识和上下文理解能力，主要依赖直接的语音到文本映射。
CoT-ASR通过构建推理链，使LLM先分析语音生成上下文，再进行语音识别，实现更智能的转录。
实验表明，CoT-ASR相比标准LLM-ASR，在WER和EER上分别降低了8.7%和16.9%。

📝 摘要（中文）

本文提出了一种名为思维链ASR（CoT-ASR）的方法，旨在有效利用大型语言模型（LLM）在自动语音识别（ASR）中的丰富知识和上下文理解能力。与传统的直接语音到文本映射不同，CoT-ASR构建了一个推理链，使LLM能够首先分析输入语音并生成上下文分析，从而充分发挥其生成能力。通过这种上下文推理，CoT-ASR能够执行更明智的语音识别，并在一次传递中完成推理和转录。此外，CoT-ASR自然支持用户引导的转录，可以无缝地整合用户提供的上下文来指导转录，进一步扩展了ASR的功能。为了缩小模态差距，本文引入了一种CTC引导的模态适配器，该适配器使用CTC非空白token概率来加权LLM嵌入，从而有效地将语音编码器输出与LLM的文本潜在空间对齐。实验结果表明，与标准的基于LLM的ASR相比，CoT-ASR在词错误率（WER）方面实现了8.7%的相对降低，在实体错误率（EER）方面实现了16.9%的相对降低。

🔬 方法详解

问题定义：现有的基于LLM的ASR方法主要关注直接的语音到文本的映射，未能充分利用LLM强大的上下文推理和知识储备能力。这导致在处理复杂语音场景，特别是需要理解上下文语境才能准确转录的场景时，性能受到限制。现有方法缺乏有效的机制来引导LLM进行上下文分析，从而影响了最终的转录准确性。

核心思路：CoT-ASR的核心思路是引入“思维链”（Chain-of-Thought）的概念，将语音识别过程分解为两个阶段：首先，LLM分析输入语音并生成上下文推理；然后，基于该推理进行语音转录。这种分解使得LLM能够更好地利用其生成能力和知识库，从而提高转录的准确性和鲁棒性。通过显式地生成上下文推理，CoT-ASR模拟了人类的思考过程，使得模型能够更好地理解语音的含义。

技术框架：CoT-ASR的整体框架包括以下几个主要模块：1) 语音编码器：将输入语音转换为特征表示。2) CTC引导的模态适配器：将语音编码器的输出映射到LLM的文本潜在空间，缩小模态差距。3) LLM推理模块：基于适配后的语音特征，生成上下文推理。4) LLM转录模块：基于上下文推理，生成最终的文本转录。整个过程在一个pass中完成，无需额外的训练或后处理。用户还可以提供额外的上下文信息，以引导LLM进行更准确的转录。

关键创新：CoT-ASR的关键创新在于引入了思维链推理机制，使得LLM能够显式地进行上下文分析，从而更好地利用其知识和生成能力。此外，CTC引导的模态适配器有效地缩小了语音和文本之间的模态差距，提高了特征对齐的效率。与传统的端到端ASR方法相比，CoT-ASR更具可解释性和可控性，能够更好地处理复杂语音场景。

关键设计：CTC引导的模态适配器使用CTC非空白token概率来加权LLM的嵌入，从而更好地对齐语音编码器和LLM的特征空间。具体来说，CTC的输出概率被用作注意力权重，用于加权LLM的嵌入向量。这种加权方式使得模型能够更加关注与语音内容相关的文本信息，从而提高特征对齐的准确性。此外，CoT-ASR的设计允许用户提供额外的上下文信息，以引导LLM进行更准确的转录。这种用户引导的转录功能使得CoT-ASR更具灵活性和实用性。

🖼️ 关键图片

📊 实验亮点

CoT-ASR在实验中表现出色，与标准的基于LLM的ASR相比，在词错误率（WER）方面实现了8.7%的相对降低，在实体错误率（EER）方面实现了16.9%的相对降低。这些结果表明，CoT-ASR能够有效地利用LLM的上下文推理能力，从而提高语音识别的准确性和鲁棒性。

🎯 应用场景

CoT-ASR具有广泛的应用前景，例如智能客服、会议记录、语音助手等。通过提升语音识别的准确性和上下文理解能力，CoT-ASR可以改善人机交互体验，提高工作效率。未来，CoT-ASR有望应用于更多领域，例如医疗诊断、教育培训等，为人们的生活带来更多便利。

📄 摘要（原文）

Despite extensions to speech inputs, effectively leveraging the rich knowledge and contextual understanding of large language models (LLMs) in automatic speech recognition (ASR) remains non-trivial, as the task primarily involves direct speech-to-text mapping. To address this, this paper proposes chain-of-thought ASR (CoT-ASR), which constructs a reasoning chain that enables LLMs to first analyze the input speech and generate contextual analysis, thereby fully exploiting their generative capabilities. With this contextual reasoning, CoT-ASR then performs more informed speech recognition and completes both reasoning and transcription in a single pass. Moreover, CoT-ASR naturally supports user-guided transcription: while designed to self-generate reasoning, it can also seamlessly incorporate user-provided context to guide transcription, further extending ASR functionality. To reduce the modality gap, this paper introduces a CTC-guided Modality Adapter, which uses CTC non-blank token probabilities to weight LLM embeddings, efficiently aligning speech encoder outputs with the LLM's textual latent space. Experiments show that, compared to standard LLM-based ASR, CoT-ASR achieves a relative reduction of 8.7% in word error rate (WER) and 16.9% in entity error rate (EER).

Speech LLMs are Contextual Reasoning Transcribers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理