Evaluating Reasoning Faithfulness in Medical Vision-Language Models using Multimodal Perturbations
作者: Johannes Moll, Markus Graf, Tristan Lemke, Nicolas Lenhart, Daniel Truhn, Jean-Benoit Delbrouck, Jiazhen Pan, Daniel Rueckert, Lisa C. Adams, Keno K. Bressem
分类: cs.CL, cs.CV
发布日期: 2025-10-13 (更新: 2025-11-09)
备注: Accepted to ML4H 2025 Proceedings
💡 一句话要点
提出基于多模态扰动的医学VQA模型推理忠实性评估框架,用于评估胸部X光片问答。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉问答 医学影像 推理忠实性 多模态学习 胸部X光片
📋 核心要点
- 现有VQA模型解释缺乏忠实性,无法反映真实决策过程,临床应用中信任度低。
- 通过控制文本和图像扰动,从临床保真度、因果归因和置信度校准三个维度评估VQA模型。
- 实验表明答案准确性与解释质量解耦,文本线索影响大于视觉线索,专有模型在归因和保真度上表现更好。
📝 摘要(中文)
视觉-语言模型(VLMs)生成的思维链(CoT)解释看似合理,但未能反映潜在的决策过程,从而降低了在高风险临床应用中的信任度。现有的评估很少能捕捉到这种错位,而是优先考虑答案的准确性或对格式的遵守。本文提出了一个临床基础的胸部X光片视觉问答(VQA)框架,通过在临床保真度、因果归因和置信度校准三个方面进行受控的文本和图像修改来探测CoT的忠实性。在一项读者研究(n=4)中,评估者-放射科医生相关性落在所有轴的观察到的放射科医生间范围内,归因的对齐度很高(Kendall's $τ_b=0.670$),保真度的对齐度中等($τ_b=0.387$),置信度语气的对齐度较弱($τ_b=0.091$),我们谨慎地报告了这一点。对六个VLMs的基准测试表明,答案的准确性和解释的质量可以解耦,承认注入的线索并不能确保基础,并且文本线索比视觉线索更能改变解释。虽然一些开源模型匹配了最终答案的准确性,但专有模型在归因(25.0% vs. 1.4%)和保真度(36.1% vs. 31.7%)上得分更高,突出了部署风险以及评估超出最终答案准确性的必要性。
🔬 方法详解
问题定义:论文旨在解决医学视觉-语言模型(VLMs)在胸部X光片视觉问答(VQA)任务中,推理过程缺乏忠实性的问题。现有方法通常只关注答案的准确性,而忽略了解释是否真实反映了模型的决策过程。这种缺乏忠实性的解释会降低临床医生对模型的信任度,阻碍其在高风险医疗场景中的应用。
核心思路:论文的核心思路是通过引入多模态扰动,即对输入图像和文本进行有控制的修改,来评估VQA模型解释的忠实性。如果模型的解释能够正确反映这些扰动的影响,则认为其推理过程是忠实的。通过这种方式,可以更全面地评估模型的推理能力,而不仅仅是答案的准确性。
技术框架:该框架包含以下几个主要步骤:1) 构建一个包含胸部X光片和对应问题的VQA数据集。2) 定义三种类型的多模态扰动:临床保真度扰动(例如,引入不相关的临床信息)、因果归因扰动(例如,移除关键的视觉特征)和置信度校准扰动(例如,改变问题的语气)。3) 使用这些扰动生成新的VQA样本。4) 将原始样本和扰动后的样本输入到VQA模型中,并生成对应的解释。5) 使用人工评估(放射科医生)来判断解释是否忠实地反映了扰动的影响。
关键创新:该论文的关键创新在于提出了一个基于多模态扰动的VQA模型推理忠实性评估框架。该框架不仅关注答案的准确性,更关注解释的质量和忠实性。通过引入临床相关的扰动,可以更有效地评估模型在实际临床场景中的应用潜力。此外,该框架还提供了一种量化解释忠实性的方法,可以用于比较不同VQA模型的性能。
关键设计:在扰动设计方面,论文特别关注了临床相关性,例如,引入的临床信息都是真实的,移除的视觉特征都是与疾病相关的。在评估指标方面,论文使用了Kendall's tau-b相关系数来衡量评估者(放射科医生)之间以及评估者与模型之间的对齐程度。此外,论文还分析了不同类型的扰动对模型解释的影响,例如,文本扰动通常比视觉扰动更容易影响模型的解释。
📊 实验亮点
实验结果表明,答案准确性与解释质量存在解耦现象,即高准确率的模型不一定具有高质量的解释。专有模型在因果归因(25.0% vs. 1.4%)和临床保真度(36.1% vs. 31.7%)方面优于开源模型,但文本线索比视觉线索更容易影响模型解释。读者研究中,评估者-放射科医生相关性在可接受范围内,归因对齐度最高(Kendall's $τ_b=0.670$)。
🎯 应用场景
该研究成果可应用于医学影像辅助诊断领域,帮助医生评估VQA模型的可信度,从而更安全有效地利用AI技术。通过提高模型解释的忠实性,增强医生对AI辅助诊断的信任,最终提升诊断效率和准确性,并减少误诊风险。未来可扩展到其他医学影像类型和临床任务。
📄 摘要(原文)
Vision-language models (VLMs) often produce chain-of-thought (CoT) explanations that sound plausible yet fail to reflect the underlying decision process, undermining trust in high-stakes clinical use. Existing evaluations rarely catch this misalignment, prioritizing answer accuracy or adherence to formats. We present a clinically grounded framework for chest X-ray visual question answering (VQA) that probes CoT faithfulness via controlled text and image modifications across three axes: clinical fidelity, causal attribution, and confidence calibration. In a reader study (n=4), evaluator-radiologist correlations fall within the observed inter-radiologist range for all axes, with strong alignment for attribution (Kendall's $τ_b=0.670$), moderate alignment for fidelity ($τ_b=0.387$), and weak alignment for confidence tone ($τ_b=0.091$), which we report with caution. Benchmarking six VLMs shows that answer accuracy and explanation quality can be decoupled, acknowledging injected cues does not ensure grounding, and text cues shift explanations more than visual cues. While some open-source models match final answer accuracy, proprietary models score higher on attribution (25.0% vs. 1.4%) and often on fidelity (36.1% vs. 31.7%), highlighting deployment risks and the need to evaluate beyond final answer accuracy.