An Empirical Analysis of Calibration and Selective Prediction in Multimodal Clinical Condition Classification

📄 arXiv: 2603.02719v1 📥 PDF

作者: L. Julián Lechuga López, Farah E. Shamout, Tim G. J. Rudner

分类: cs.LG

发布日期: 2026-03-03

备注: 33 pages, 14 figures, 8 tables


💡 一句话要点

揭示多模态临床条件分类中选择性预测的不可靠性,强调校准评估的重要性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 临床条件分类 选择性预测 不确定性估计 模型校准

📋 核心要点

  1. 现有临床AI系统依赖的选择性预测,在多模态数据下,其不确定性评估的可靠性面临挑战。
  2. 该研究通过分析模型在ICU数据上的预测行为,揭示了类别依赖性未校准问题,即对正确预测高估不确定性。
  3. 实验表明,常用的评估指标无法有效捕捉选择性预测的失效模式,强调了校准感知评估的必要性。

📝 摘要(中文)

随着人工智能系统向临床部署发展,确保可靠的预测行为对于安全攸关的决策任务至关重要。一种提议的保障措施是选择性预测,即模型可以将不确定的预测推迟给人类专家进行审查。本文实证评估了基于不确定性的选择性预测在多标签临床条件分类中的可靠性,使用了多模态ICU数据。研究发现,尽管标准评估指标表现良好,但选择性预测会显著降低性能。这种失败是由严重的类别依赖性未校准驱动的,即模型对正确的预测分配高不确定性,而对错误的预测分配低不确定性,特别是对于代表性不足的临床条件。研究结果表明,常用的聚合指标可能会掩盖这些影响,限制其评估此设置中选择性预测行为的能力。综上所述,研究结果描述了多模态临床条件分类中选择性预测的任务特定失败模式,并强调需要进行校准感知评估,以在临床AI中提供强大的安全性和鲁棒性保证。

🔬 方法详解

问题定义:论文旨在解决多模态临床条件分类任务中,基于不确定性的选择性预测方法在实际应用中表现不佳的问题。现有方法依赖于模型自身的不确定性估计来决定是否将预测结果交给专家审核,但这种不确定性估计往往不可靠,尤其是在临床数据分布不平衡的情况下,导致模型过度自信地给出错误预测,或者对正确的预测过于保守。

核心思路:论文的核心思路是通过实证分析,揭示现有选择性预测方法在多模态临床数据上的失效模式,即类别依赖性的未校准问题。模型对不同类别的预测结果,其不确定性估计的准确性存在显著差异,导致选择性预测策略失效。因此,论文强调需要采用校准感知的评估方法,更准确地评估选择性预测的性能。

技术框架:论文采用多模态ICU数据,包括文本、数值等多种类型的数据。研究框架主要包括以下几个步骤:1) 使用不同的单模态和多模态模型进行临床条件分类;2) 基于模型的不确定性估计,应用选择性预测策略;3) 使用标准评估指标(如准确率、F1值)和校准评估指标,评估选择性预测的性能;4) 分析类别依赖性的未校准问题,揭示选择性预测的失效模式。

关键创新:论文最重要的技术创新点在于揭示了多模态临床条件分类中选择性预测的类别依赖性未校准问题。以往的研究往往关注整体的性能指标,而忽略了不同类别之间的差异。该论文通过细致的分析,发现模型对不同类别的预测结果,其不确定性估计的准确性存在显著差异,导致选择性预测策略失效。

关键设计:论文的关键设计包括:1) 选择了多种单模态和多模态模型,以验证结论的普适性;2) 采用了多种不确定性估计方法,如Dropout Uncertainty、Deep Ensembles等;3) 使用了多种校准评估指标,如Expected Calibration Error (ECE)、Maximum Calibration Error (MCE)等,以更全面地评估选择性预测的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,尽管模型在标准评估指标上表现良好,但选择性预测实际上会显著降低性能。例如,对于某些代表性不足的临床条件,模型会高估正确预测的不确定性,导致这些预测被错误地交给专家审核,从而降低了整体的诊断效率和准确性。实验结果表明,常用的聚合指标无法有效捕捉这些失效模式,需要采用校准感知的评估方法。

🎯 应用场景

该研究成果可应用于临床决策支持系统,通过更可靠的不确定性估计和选择性预测,辅助医生进行诊断和治疗。未来的研究可以探索更有效的校准方法,提高临床AI系统的安全性和可靠性,减少误诊和漏诊的风险。此外,该研究也为其他领域的选择性预测应用提供了借鉴,例如自动驾驶、金融风控等。

📄 摘要(原文)

As artificial intelligence systems move toward clinical deployment, ensuring reliable prediction behavior is fundamental for safety-critical decision-making tasks. One proposed safeguard is selective prediction, where models can defer uncertain predictions to human experts for review. In this work, we empirically evaluate the reliability of uncertainty-based selective prediction in multilabel clinical condition classification using multimodal ICU data. Across a range of state-of-the-art unimodal and multimodal models, we find that selective prediction can substantially degrade performance despite strong standard evaluation metrics. This failure is driven by severe class-dependent miscalibration, whereby models assign high uncertainty to correct predictions and low uncertainty to incorrect ones, particularly for underrepresented clinical conditions. Our results show that commonly used aggregate metrics can obscure these effects, limiting their ability to assess selective prediction behavior in this setting. Taken together, our findings characterize a task-specific failure mode of selective prediction in multimodal clinical condition classification and highlight the need for calibration-aware evaluation to provide strong guarantees of safety and robustness in clinical AI.