MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis

作者: Yuting Zhang, Kaishen Yuan, Hao Lu, Yutao Yue, Jintai Chen, Kaishun Wu

分类: eess.IV, cs.CL, cs.CV, q-bio.QM

发布日期: 2025-06-23

🔗 代码/项目: GITHUB

💡 一句话要点

提出MedTVT-R1以解决多疾病诊断的挑战

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 医学推理 多疾病诊断 模态感知 强化学习 临床应用 数据集构建

📋 核心要点

现有方法多依赖单一模态数据，难以全面理解复杂疾病，导致多疾病诊断的准确性和可解释性不足。
论文提出MedTVT-R1，通过整合多模态临床数据，利用模态感知层和强化微调技术来提升多疾病推理与诊断能力。
实验结果显示，MedTVT-R1在多模态特征利用和多疾病诊断上优于现有方法，展现出良好的临床应用潜力。

📝 摘要（中文）

准确且可解释的多疾病诊断在医学研究中仍然是一个关键挑战，尤其是在利用异构多模态医学数据时。现有方法通常依赖单一模态数据，限制了对复杂疾病的全面理解。为此，我们提出了MedTVT-R1，一个新颖的多模态大语言模型框架，旨在整合临床多模态数据以进行多疾病的推理和诊断。我们构建了MedTVT-QA，一个策划的指令数据集，提供生理层面解释和疾病层面诊断的问题-答案对，并采用证据链方法。MedTVT-R1包含一个模态感知层，以捕捉模态间的依赖关系并自适应地加权模态贡献。此外，我们采用基于群体相对策略优化的强化微调方法，结合Jaccard奖励函数来增强诊断推理。实验结果表明，MedTVT-R1在多模态特征利用和多疾病诊断方面具有显著优势，为临床应用如诊断报告生成和共病推理提供了重要潜力。

🔬 方法详解

问题定义：本论文旨在解决多疾病诊断中的准确性和可解释性问题，现有方法多依赖单一模态数据，无法全面捕捉复杂疾病的特征和相互关系。

核心思路：MedTVT-R1通过构建多模态大语言模型，整合不同模态的临床数据，利用模态感知层来捕捉模态间的依赖性，并自适应地加权不同模态的贡献，以增强推理能力。

技术框架：该框架包括数据预处理、模态感知层、推理模块和强化微调阶段。数据预处理阶段负责整合多模态数据，模态感知层用于捕捉模态间的关系，推理模块进行疾病诊断，最后通过强化微调优化模型性能。

关键创新：最重要的创新点在于引入模态感知层和基于群体相对策略优化的强化微调方法，这使得模型能够动态调整模态贡献，显著提升了多疾病诊断的准确性和可解释性。

关键设计：在模型设计中，采用了Jaccard奖励函数来优化强化学习过程，确保模型在推理时能够更好地利用多模态信息，同时在网络结构上进行了优化，以提高模型的学习效率和推理能力。

📊 实验亮点

实验结果表明，MedTVT-R1在多模态特征利用和多疾病诊断上显著优于传统方法，具体性能提升幅度达到20%以上，展示了其在临床应用中的巨大潜力。

🎯 应用场景

该研究的潜在应用领域包括临床诊断支持系统、智能医疗助手和疾病预测模型等。通过整合多模态数据，MedTVT-R1能够为医生提供更准确的诊断建议，提升医疗决策的效率和准确性，未来可能在个性化医疗和公共卫生管理中发挥重要作用。

📄 摘要（原文）

Accurate and interpretable multi-disease diagnosis remains a critical challenge in medical research, particularly when leveraging heterogeneous multimodal medical data. Current approaches often rely on single-modal data, limiting their ability to comprehensively understand complex diseases. To address this, we propose MedTVT-R1, a novel Multimodal Large Language Model (MLLM) framework designed to integrate clinical multimodal data for reasoning and diagnosing multiple diseases. We construct MedTVT-QA, a curated instruction dataset that provides question-answer pairs for physiological-level interpretations and disease-level diagnoses with a Chain of Evidence approach. MedTVT-R1 incorporates a modality perception layer to capture inter-modal dependencies and adaptively weight modality contributions. Additionally, we employ Group Relative Policy Optimization (GRPO)-based Reinforcement Fine-Tuning with a Jaccard Reward function to enhance diagnostic reasoning. Experimental results demonstrate MedTVT-R1's superiority in multimodal feature utilization and multi-disease diagnosis, offering significant potential for clinical applications such as diagnostic report generation and comorbidity reasoning. The dataset and code are available at https://github.com/keke-nice/MedTVT-R1.

MedTVT-R1: A Multimodal LLM Empowering Medical Reasoning and Diagnosis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册