Benchmarking LLM Summaries of Multimodal Clinical Time Series for Remote Monitoring

📄 arXiv: 2603.01557v1 📥 PDF

作者: Aditya Shukla, Yining Yuan, Ben Tamo, Yifei Wang, Micky Nnamdi, Shaun Tan, Jieru Li, Benoit Marteau, Brad Willingham, May Wang

分类: cs.AI

发布日期: 2026-03-02


💡 一句话要点

提出事件感知的评估框架,用于评估LLM对多模态临床时间序列的总结质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床时间序列 远程监测 事件感知评估 多模态数据 医疗健康 异常检测

📋 核心要点

  1. 现有LLM在临床时间序列总结中缺乏对关键临床事件的准确捕捉,传统评估指标侧重于语义相似性,忽略了事件层面的正确性。
  2. 论文提出一种基于事件的评估框架,通过规则提取临床事件,并与LLM生成的摘要进行对齐,从而评估LLM对临床事件的捕捉能力。
  3. 实验结果表明,传统指标高的模型事件召回率可能很低,而基于视觉的方法在事件对齐方面表现更佳,验证了事件感知评估的重要性。

📝 摘要(中文)

大型语言模型(LLM)能够生成流畅的远程治疗监测时间序列的临床总结。然而,这些叙述是否忠实地捕捉到临床上重要的事件,如持续的异常情况,仍然不清楚。现有的评估指标主要关注语义相似性和语言质量,而事件层面的正确性在很大程度上没有被衡量。为了解决这个差距,我们引入了一个基于事件的评估框架,用于使用技术集成健康管理(TIHM)-1.5痴呆症监测数据集进行多模态时间序列总结。临床上相关的每日事件通过基于规则的异常阈值和时间持久性标准推导出来。然后,将模型生成的摘要与这些结构化事实对齐。我们的评估协议测量异常召回率、持续时间召回率、测量覆盖率和幻觉事件提及。我们对三种方法进行了基准测试:零样本提示、统计提示和使用渲染时间序列可视化的基于视觉的流水线。结果表明,传统指标与临床事件保真度之间存在显著的脱钩。实现高语义相似性分数的模型通常表现出接近于零的异常召回率。相比之下,基于视觉的方法表现出最强的事件对齐,实现了45.7%的异常召回率和100%的持续时间召回率。这些发现强调了事件感知评估的重要性,以确保可靠的临床时间序列总结。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在总结多模态临床时间序列时,无法准确捕捉临床重要事件的问题。现有评估方法主要关注语义相似性和语言流畅性,忽略了对临床事件真实性的评估,导致LLM生成的总结可能存在遗漏或错误的关键信息。

核心思路:论文的核心思路是引入事件感知的评估框架,将LLM生成的总结与从原始时间序列数据中提取的结构化临床事件进行对齐。通过比较LLM总结中提及的事件与真实事件,评估LLM的事件召回率、持续时间召回率等指标,从而更全面地评估LLM的总结质量。

技术框架:该评估框架主要包含以下几个阶段:1) 数据预处理:使用TIHM-1.5痴呆症监测数据集,该数据集包含多模态时间序列数据。2) 事件提取:通过基于规则的异常阈值和时间持久性标准,从时间序列数据中提取临床相关的每日事件。3) LLM总结生成:使用三种方法生成临床时间序列的总结,包括零样本提示、统计提示和基于视觉的流水线。4) 事件对齐与评估:将LLM生成的总结与提取的临床事件进行对齐,计算异常召回率、持续时间召回率、测量覆盖率和幻觉事件提及等指标。

关键创新:论文最重要的技术创新点在于提出了事件感知的评估框架,该框架能够更准确地评估LLM在临床时间序列总结中的表现。与传统的语义相似性评估方法相比,该框架能够直接衡量LLM对关键临床事件的捕捉能力,从而更好地指导LLM的训练和优化。

关键设计:事件提取规则的设计是关键。论文使用基于规则的异常阈值和时间持久性标准来定义临床事件。例如,可以设置一个血压阈值,当血压持续高于该阈值一段时间时,则认为发生了一个高血压事件。此外,论文还设计了多种评估指标,包括异常召回率、持续时间召回率、测量覆盖率和幻觉事件提及,以全面评估LLM的总结质量。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,传统评估指标(如语义相似性)高的模型,其临床事件召回率可能接近于零,表明这些模型无法准确捕捉关键的临床信息。相比之下,基于视觉的方法表现出更强的事件对齐能力,实现了45.7%的异常召回率和100%的持续时间召回率,验证了事件感知评估的重要性。

🎯 应用场景

该研究成果可应用于远程健康监测、智能医疗辅助诊断等领域。通过对患者的生理数据进行自动总结,医生可以快速了解患者的健康状况,及时发现潜在的健康风险。此外,该技术还可以用于构建智能健康管理系统,为患者提供个性化的健康建议。

📄 摘要(原文)

Large language models (LLMs) can generate fluent clinical summaries of remote therapeutic monitoring time series. However, it remains unclear whether these narratives faithfully capture clinically significant events, such as sustained abnormalities. Existing evaluation metrics primarily focus on semantic similarity and linguistic quality, leaving event-level correctness largely unmeasured. To address this gap, we introduce an event-based evaluation framework for multimodal time-series summarization using the Technology-Integrated Health Management (TIHM)-1.5 dementia monitoring dataset. Clinically grounded daily events are derived through rule-based abnormal thresholds and temporal persistence criteria. Model-generated summaries are then aligned with these structured facts. Our evaluation protocol measures abnormality recall, duration recall, measurement coverage, and hallucinated event mentions. We benchmark three approaches: zero-shot prompting, statistical prompting, and a vision-based pipeline that uses rendered time-series visualizations. The results reveal a striking decoupling between conventional metrics and clinical event fidelity. Models that achieve high semantic similarity scores often exhibit near-zero abnormality recall. In contrast, the vision-based approach demonstrates the strongest event alignment, achieving 45.7% abnormality recall and 100% duration recall. These findings underscore the importance of event-aware evaluation to ensure reliable clinical time-series summarization.