Investigating Faithfulness in Large Audio Language Models

作者: Lovenya Jain, Pooneh Mousavi, Mirco Ravanelli, Cem Subakan

分类: cs.LG, eess.AS

发布日期: 2025-09-26 (更新: 2025-10-14)

💡 一句话要点

研究表明大型音频语言模型（LALM）的思维链（CoT）在一定程度上是可信的。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型音频语言模型 思维链 可信度 音频推理 可解释性

📋 核心要点

现有基于文本的LLM的CoT可信度较低，而LALM的可信度研究不足，尤其是在安全敏感场景下。
通过对LALM的CoT进行干预（释义、注入、提前回答、引入错误），评估其对决策过程的真实反映程度。
实验结果表明，LALM生成的CoT在一定程度上反映了其底层的决策过程，具有一定的可信度。

📝 摘要（中文）

本文探讨了思维链（CoT）表征是否准确反映了大型音频语言模型（LALM）的决策过程，以及CoT是否可以作为可靠的解释。先前的研究表明，基于文本的LLM的CoT通常是不可信的。对于大型音频语言模型（LALM）而言，由于其在安全敏感型应用中的重要性，CoT的可信度问题尚未得到充分研究。LALM中的推理更具挑战性，因为模型必须首先从音频中提取相关线索，然后才能进行推理。在本文中，我们通过在两个具有挑战性的推理数据集SAKURA和MMAR上应用有针对性的干预措施，包括释义、填充词注入、提前回答和引入错误，来研究几种LALM生成的CoT的可信度。经过在多个数据集和任务中进行上述干预后，我们的实验表明，LALM通常会生成对其底层决策过程而言似乎是可信的CoT。

🔬 方法详解

问题定义：论文旨在研究大型音频语言模型（LALM）中思维链（CoT）的可信度。现有研究表明，基于文本的LLM的CoT往往不可信，而LALM的CoT可信度尚未得到充分研究，尤其是在安全敏感的应用场景下，CoT的可信度至关重要。此外，LALM需要先从音频中提取信息，再进行推理，增加了推理的复杂性。

核心思路：论文的核心思路是通过对LALM生成的CoT进行有针对性的干预，观察干预前后模型决策的变化，从而评估CoT是否真实反映了模型的决策过程。如果CoT能够抵抗干预，并且模型的决策与CoT的内容一致，则认为CoT是可信的。

技术框架：论文的技术框架主要包括以下几个步骤：1）选择具有挑战性的推理数据集（SAKURA和MMAR）；2）使用LALM生成CoT；3）对CoT进行多种干预，包括释义、填充词注入、提前回答和引入错误；4）评估干预前后模型的性能变化；5）分析CoT与模型决策的一致性，从而判断CoT的可信度。

关键创新：论文的关键创新在于首次针对LALM的CoT可信度进行了系统的研究。通过设计多种干预手段，能够更全面地评估CoT的真实性。与以往主要关注文本LLM的CoT研究不同，本文聚焦于音频模态，更具挑战性和实际意义。

关键设计：论文的关键设计包括：1）选择SAKURA和MMAR作为数据集，这两个数据集需要模型进行复杂的推理；2）设计了四种干预手段，分别从不同角度影响CoT的内容和结构；3）通过比较干预前后模型的性能变化，量化CoT的影响；4）分析CoT的内容与模型最终决策之间的关系，判断CoT是否真实反映了模型的推理过程。

📊 实验亮点

实验结果表明，LALM生成的CoT在一定程度上是可信的，能够反映其底层的决策过程。尽管在某些情况下，干预会影响模型的性能，但总体而言，LALM的CoT表现出一定的鲁棒性。该研究为LALM的可信度评估提供了一个新的视角。

🎯 应用场景

该研究成果可应用于安全敏感的音频处理领域，例如语音助手、医疗诊断、智能监控等。通过提高LALM的可信度，可以增强用户对模型的信任，并减少因模型错误决策带来的风险。未来的研究可以进一步探索如何提高LALM的CoT可信度，并将其应用于更广泛的音频理解任务。

📄 摘要（原文）

Faithfulness measures whether chain-of-thought (CoT) representations accurately reflect a model's decision process and can be used as reliable explanations. Prior work has shown that CoTs from text-based LLMs are often unfaithful. This question has not been explored for large audio-language models (LALMs), where faithfulness is critical for safety-sensitive applications. Reasoning in LALMs is also more challenging, as models must first extract relevant clues from audio before reasoning over them. In this paper, we investigate the faithfulness of CoTs produced by several LALMs by applying targeted interventions, including paraphrasing, filler token injection, early answering, and introducing mistakes, on two challenging reasoning datasets: SAKURA and MMAR. After going through the aforementioned interventions across several datasets and tasks, our experiments suggest that, LALMs generally produce CoTs that appear to be faithful to their underlying decision processes.