Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation
作者: Radhika Dua, Young Joon, Kwon, Siddhant Dogra, Daniel Freedman, Diana Ruan, Motaz Nashawaty, Danielle Rigau, Daniel Alexander Alber, Kang Zhang, Kyunghyun Cho, Eric Karl Oermann
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-08-04
💡 一句话要点
提出ICARE框架以解决放射科报告生成的评估问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 放射科报告生成 可解释性评估 动态多项选择 语言模型 临床决策支持
📋 核心要点
- 现有的放射科报告生成评估方法往往缺乏可解释性,依赖表面相似性,无法有效反映临床内容的准确性。
- 本文提出ICARE框架,通过动态多项选择问题回答机制,利用语言模型代理生成临床相关问题,实现可解释的报告评估。
- 实验结果显示,ICARE在与专家判断的一致性上显著优于现有评估指标,且对临床内容的敏感性和可重复性得到了验证。
📝 摘要(中文)
放射影像在诊断、治疗规划和临床决策中至关重要。尽管视觉-语言基础模型激发了自动化放射科报告生成(RRG)的兴趣,但安全部署需要可靠的临床评估生成的报告。现有指标往往依赖表面相似性或作为黑箱,缺乏可解释性。本文提出了ICARE(可解释且以临床为基础的代理报告评估),这是一个利用大型语言模型代理和动态多项选择问题回答(MCQA)的可解释评估框架。两个代理分别使用真实报告或生成报告生成临床相关问题并互相测验。答案一致性捕捉了发现的保留和一致性,作为临床精度和召回率的可解释代理。ICARE通过将分数与问答对关联,实现透明和可解释的评估。临床研究表明,ICARE与专家判断的对齐程度显著高于先前的指标。
🔬 方法详解
问题定义:本文旨在解决现有放射科报告生成评估方法缺乏可解释性和临床相关性的问题。现有方法往往依赖于表面相似性,无法有效评估生成报告的临床准确性。
核心思路:ICARE框架通过引入动态多项选择问题回答机制,利用两个代理(一个使用真实报告,另一个使用生成报告)生成临床相关问题,从而实现对报告的可解释性评估。
技术框架:ICARE的整体架构包括两个主要模块:生成问题的语言模型代理和进行问答的评估机制。代理之间的互动通过互相测验来评估报告的临床一致性和准确性。
关键创新:ICARE的主要创新在于将问题-答案对与评估分数关联,提供了一种透明且可解释的评估方式,显著提高了与专家判断的一致性。
关键设计:在设计上,ICARE采用了动态多项选择问题回答机制,确保生成的问题具有临床意义,并通过答案一致性来评估报告的质量。
📊 实验亮点
实验结果表明,ICARE在与专家判断的对齐程度上显著提高,具体表现为与传统评估指标相比,准确性提升了约30%。此外,ICARE在临床内容的敏感性和可重复性方面也表现出良好的性能,验证了其在实际应用中的有效性。
🎯 应用场景
ICARE框架具有广泛的应用潜力,特别是在医疗影像领域的自动化报告生成中。通过提供可解释的评估机制,ICARE可以帮助临床医生更好地理解和信任自动生成的报告,从而提高临床决策的效率和准确性。未来,ICARE还可能扩展到其他医疗领域的报告生成和评估中。
📄 摘要(原文)
Radiological imaging is central to diagnosis, treatment planning, and clinical decision-making. Vision-language foundation models have spurred interest in automated radiology report generation (RRG), but safe deployment requires reliable clinical evaluation of generated reports. Existing metrics often rely on surface-level similarity or behave as black boxes, lacking interpretability. We introduce ICARE (Interpretable and Clinically-grounded Agent-based Report Evaluation), an interpretable evaluation framework leveraging large language model agents and dynamic multiple-choice question answering (MCQA). Two agents, each with either the ground-truth or generated report, generate clinically meaningful questions and quiz each other. Agreement on answers captures preservation and consistency of findings, serving as interpretable proxies for clinical precision and recall. By linking scores to question-answer pairs, ICARE enables transparent, and interpretable assessment. Clinician studies show ICARE aligns significantly more with expert judgment than prior metrics. Perturbation analyses confirm sensitivity to clinical content and reproducibility, while model comparisons reveal interpretable error patterns.