Is Clinical Text Enough? A Multimodal Study on Mortality Prediction in Heart Failure Patients
作者: Oumaima El Khettari, Virgile Barthet, Guillaume Hocquet, Joconde Weller, Emmanuel Morin, Pierre Zweigenbaum
分类: cs.CL
发布日期: 2026-04-02
备注: Accepted in LREC 2026
💡 一句话要点
提出基于实体感知的多模态Transformer模型,提升心力衰竭患者短期死亡率预测精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心力衰竭 死亡率预测 多模态融合 Transformer模型 电子健康记录 临床文本挖掘 实体识别
📋 核心要点
- 现有方法仅依赖结构化EHR数据预测心力衰竭患者短期死亡率,精度不足,面临挑战。
- 论文提出一种实体感知的多模态Transformer模型,融合临床文本和结构化数据,提升预测性能。
- 实验结果表明,该模型优于纯文本、纯结构化数据和基于LLM的方法,实现更可靠的预测。
📝 摘要(中文)
准确预测心力衰竭(HF)患者的短期死亡率仍然具有挑战性,尤其是在仅依赖结构化电子健康记录(EHR)数据时。本文在法国HF队列上评估了基于Transformer的模型,比较了纯文本、纯结构化数据、多模态和基于LLM的方法。结果表明,用实体级别的表示增强临床文本可以提高仅使用CLS嵌入的预测效果,并且文本和结构化变量的监督多模态融合实现了最佳的整体性能。相比之下,大型语言模型在不同模态和解码策略中的表现不一致,纯文本提示优于结构化或多模态输入。这些发现表明,实体感知的多模态Transformer为短期HF结局预测提供了最可靠的解决方案,而当前的LLM提示对于临床决策支持仍然有限。
🔬 方法详解
问题定义:论文旨在解决心力衰竭患者短期死亡率预测问题。现有方法,特别是仅依赖结构化电子健康记录数据的方法,预测精度不足,难以满足临床需求。临床文本信息蕴含丰富信息,但如何有效利用文本信息并与结构化数据融合是挑战。
核心思路:论文的核心思路是利用Transformer模型,通过多模态融合临床文本和结构化数据,提升预测精度。特别强调了“实体感知”,即在文本表示中融入实体级别的信息,从而更有效地利用临床文本中的语义信息。
技术框架:整体框架包含以下几个主要模块:1) 文本编码器:使用Transformer模型对临床文本进行编码,并融入实体级别的信息。2) 结构化数据编码器:对结构化电子健康记录数据进行编码。3) 多模态融合模块:将文本编码和结构化数据编码进行融合,得到多模态表示。4) 预测模块:基于多模态表示进行死亡率预测。论文比较了不同的融合策略,包括早期融合和晚期融合。
关键创新:论文的关键创新在于:1) 提出了一种实体感知的文本表示方法,能够更有效地利用临床文本中的语义信息。2) 探索了多种多模态融合策略,并找到了最佳的融合方式。3) 对比了Transformer模型和大型语言模型在心力衰竭死亡率预测任务上的性能,发现Transformer模型更可靠。
关键设计:论文使用了Transformer模型作为文本编码器,并采用了预训练的语言模型作为初始化。在实体感知方面,论文使用了实体链接技术,将文本中的实体链接到知识库中,并利用知识库中的信息来增强文本表示。在多模态融合方面,论文使用了注意力机制,让模型能够自适应地学习不同模态之间的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,实体感知的多模态Transformer模型在心力衰竭患者短期死亡率预测任务上取得了最佳性能。与仅使用CLS嵌入的文本模型相比,该模型性能显著提升。此外,该模型优于纯结构化数据模型和基于LLM的方法,证明了多模态融合和实体感知的重要性。
🎯 应用场景
该研究成果可应用于临床决策支持系统,辅助医生进行心力衰竭患者的风险评估和治疗方案制定。通过更准确的短期死亡率预测,可以优化医疗资源分配,改善患者预后,并降低医疗成本。未来可扩展到其他疾病的风险预测和个性化治疗。
📄 摘要(原文)
Accurate short-term mortality prediction in heart failure (HF) remains challenging, particularly when relying on structured electronic health record (EHR) data alone. We evaluate transformer-based models on a French HF cohort, comparing text-only, structured-only, multimodal, and LLM-based approaches. Our results show that enriching clinical text with entity-level representations improves prediction over CLS embeddings alone, and that supervised multimodal fusion of text and structured variables achieves the best overall performance. In contrast, large language models perform inconsistently across modalities and decoding strategies, with text-only prompts outperforming structured or multimodal inputs. These findings highlight that entity-aware multimodal transformers offer the most reliable solution for short-term HF outcome prediction, while current LLM prompting remains limited for clinical decision support.