A Reasoning-Enabled Vision-Language Foundation Model for Chest X-ray Interpretation

📄 arXiv: 2604.00493v1 📥 PDF

作者: Yabin Zhang, Chong Wang, Yunhe Gao, Jiaming Liu, Maya Varma, Justin Xu, Sophie Ostmeier, Jin Long, Sergios Gatidis, Seena Dehkharghani, Arne Michalson, Eun Kyoung Hong, Christian Bluethgen, Haiwei Henry Guo, Alexander Victor Ortiz, Stephan Altmayer, Sandhya Bodapati, Joseph David Janizek, Ken Chang, Jean-Benoit Delbrouck, Akshay S. Chaudhari, Curtis P. Langlotz

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-04-01

备注: Codes: https://github.com/YBZh/CheXOne Models: https://huggingface.co/StanfordAIMI/CheXOne


💡 一句话要点

CheXOne:一种用于胸部X光片解释的、具备推理能力的视觉-语言基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胸部X光片 视觉-语言模型 可解释性AI 临床推理 医学影像 指令调优 强化学习

📋 核心要点

  1. 现有CXR解释AI系统缺乏明确的推理过程,难以将视觉证据转化为诊断预测,限制了可解释性和临床信任。
  2. CheXOne通过联合生成诊断预测和临床推理轨迹,连接视觉证据、放射学发现和预测,实现可解释的CXR分析。
  3. 实验表明,CheXOne在多个CXR解释任务中优于现有模型,临床研究也验证了其报告质量和效率。

📝 摘要(中文)

胸部X光片(CXR)是全球最常进行的影像检查之一,但不断增长的影像量增加了放射科医生的工作量和诊断错误的风险。尽管人工智能(AI)系统在CXR解释方面显示出前景,但大多数系统仅生成最终预测,而没有明确说明视觉证据如何转化为放射学发现和诊断预测。我们提出了CheXOne,一种用于CXR解释的、具备推理能力的视觉-语言模型。CheXOne联合生成诊断预测和明确的、临床相关的推理轨迹,将视觉证据、放射学发现和这些预测联系起来。该模型在从30个公共数据集中整理的1470万个指令和推理样本上进行训练,涵盖36个CXR解释任务,使用一个两阶段框架,将指令调优与强化学习相结合,以提高推理质量。我们在视觉问答、报告生成、视觉定位和推理评估等零样本设置中评估CheXOne,涵盖17个评估设置。CheXOne优于现有的医学和通用领域基础模型,并在独立的公共基准测试中取得了强大的性能。一项临床读者研究表明,在55%的病例中,CheXOne起草的报告与住院医师撰写的报告相当或更好,同时有效地解决了临床适应症,并提高了报告撰写和CXR解释的效率。涉及放射科医生的进一步分析表明,生成的推理轨迹显示出很高的临床事实性,并为最终预测提供了因果支持,为性能提升提供了一个合理的解释。这些结果表明,显式推理可以提高AI辅助CXR解释中的模型性能、可解释性和临床效用。

🔬 方法详解

问题定义:现有CXR图像分析模型通常只给出最终的诊断结果,缺乏中间的推理过程,导致模型的可解释性差,难以让医生信任并采纳。模型无法解释其诊断依据,使得医生难以判断模型是否正确,也难以发现潜在的错误。

核心思路:CheXOne的核心思路是让模型在进行诊断预测的同时,显式地生成推理过程,将视觉证据、放射学发现和最终的诊断结果联系起来。通过这种方式,模型不仅给出了诊断结果,还解释了为什么会得出这样的结论,从而提高了模型的可解释性和可信度。

技术框架:CheXOne采用一个两阶段的训练框架。第一阶段是指令调优(Instruction Tuning),利用大量的CXR图像和对应的指令数据,训练模型理解和执行各种CXR解释任务。第二阶段是强化学习(Reinforcement Learning),通过奖励高质量的推理轨迹,进一步提高模型的推理能力。整体架构包含视觉编码器、语言模型和推理模块,视觉编码器提取图像特征,语言模型生成文本描述和诊断结果,推理模块负责连接视觉证据和诊断结果。

关键创新:CheXOne的关键创新在于它能够显式地生成临床相关的推理轨迹。与传统的只输出最终预测的模型不同,CheXOne能够解释其诊断依据,从而提高了模型的可解释性和可信度。此外,CheXOne还采用了两阶段的训练框架,将指令调优和强化学习相结合,进一步提高了模型的性能。

关键设计:CheXOne使用了Transformer架构作为其核心的语言模型。在指令调优阶段,使用了交叉熵损失函数来训练模型生成正确的文本描述和诊断结果。在强化学习阶段,使用了奖励函数来鼓励模型生成高质量的推理轨迹。奖励函数的设计考虑了临床事实性、因果关系和完整性等因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CheXOne在多个CXR解释任务中取得了优异的性能,超过了现有的医学和通用领域基础模型。在临床读者研究中,CheXOne起草的报告在55%的病例中与住院医师撰写的报告相当或更好。放射科医生的分析表明,CheXOne生成的推理轨迹具有很高的临床事实性,并为最终预测提供了因果支持。

🎯 应用场景

CheXOne可应用于辅助放射科医生进行胸部X光片的诊断,提高诊断效率和准确性,减少诊断错误。该模型生成的推理轨迹可以帮助医生理解模型的诊断依据,从而更好地信任和采纳模型的建议。此外,CheXOne还可以用于医学教育和研究,帮助学生和研究人员更好地理解CXR图像和诊断过程。

📄 摘要(原文)

Chest X-rays (CXRs) are among the most frequently performed imaging examinations worldwide, yet rising imaging volumes increase radiologist workload and the risk of diagnostic errors. Although artificial intelligence (AI) systems have shown promise for CXR interpretation, most generate only final predictions, without making explicit how visual evidence is translated into radiographic findings and diagnostic predictions. We present CheXOne, a reasoning-enabled vision-language model for CXR interpretation. CheXOne jointly generates diagnostic predictions and explicit, clinically grounded reasoning traces that connect visual evidence, radiographic findings, and these predictions. The model is trained on 14.7 million instruction and reasoning samples curated from 30 public datasets spanning 36 CXR interpretation tasks, using a two-stage framework that combines instruction tuning with reinforcement learning to improve reasoning quality. We evaluate CheXOne in zero-shot settings across visual question answering, report generation, visual grounding and reasoning assessment, covering 17 evaluation settings. CheXOne outperforms existing medical and general-domain foundation models and achieves strong performance on independent public benchmarks. A clinical reader study demonstrates that CheXOne-drafted reports are comparable to or better than resident-written reports in 55% of cases, while effectively addressing clinical indications and enhancing both report writing and CXR interpretation efficiency. Further analyses involving radiologists reveal that the generated reasoning traces show high clinical factuality and provide causal support for the final predictions, offering a plausible explanation for the performance gains. These results suggest that explicit reasoning can improve model performance, interpretability and clinical utility in AI-assisted CXR interpretation.