Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales

作者: Taeyoon Kwon, Kai Tzu-iunn Ong, Dongjin Kang, Seungjun Moon, Jeong Ryong Lee, Dosik Hwang, Yongsik Sim, Beomseok Sohn, Dongha Lee, Jinyoung Yeo

分类: cs.CL, cs.AI

发布日期: 2023-12-12 (更新: 2024-05-10)

备注: Accepted to AAAI 2024

💡 一句话要点

提出基于提示生成推理的临床诊断框架，提升LLM在临床推理中的诊断能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 临床推理 疾病诊断 提示学习 思维链

📋 核心要点

现有临床NLP项目主要关注分类或阅读理解，缺乏对疾病诊断的临床推理研究，原因在于临床医生标注推理过程成本高昂。
论文提出“推理感知”诊断框架，利用基于提示的学习方法生成诊断理由，并让LLM学习基于这些理由进行推理，降低标注成本。
实验证明LLM具备临床推理能力，并提出一套评估机器生成理由的标准，为未来研究提供参考。

📝 摘要（中文）

本文提出了一种“推理感知”的诊断框架，该框架通过基于提示的学习方式，以一种省时省力的方式合理化诊断过程，并学习对提示生成的理由进行推理。具体而言，本文关注疾病诊断的临床推理，其中LLM生成诊断理由，提供其对所呈现的患者数据的见解以及通往诊断的推理路径，即临床思维链（Clinical CoT）。通过在各种设置下对理由生成和疾病诊断进行广泛的实验和分析，本文实证地证明了LLM/LM的临床推理能力。此外，本文还提出了一套新的标准，用于评估机器生成的理由在现实临床环境中的潜力，从而促进和有益于该领域的未来研究。

🔬 方法详解

问题定义：现有临床自然语言处理研究主要集中在临床分类和阅读理解任务上，而对疾病诊断的临床推理能力探索不足。主要痛点在于，获取高质量的、由临床医生标注的推理过程数据成本非常高昂，限制了相关研究的开展。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大生成能力，通过提示工程（Prompt Engineering）自动生成诊断的理由（Rationale），即“临床思维链”（Clinical Chain-of-Thought, Clinical CoT）。然后，让LLM学习基于这些自动生成的理由进行推理，从而实现疾病诊断。这种方法避免了人工标注推理过程的高成本，并充分利用了LLM的知识和推理能力。

技术框架：该框架主要包含两个阶段：1) 基于提示的理由生成阶段：利用精心设计的提示（Prompt）引导LLM生成诊断的理由，即Clinical CoT。这些理由解释了LLM如何从患者数据推导出诊断结果。2) 基于理由的推理阶段：将生成的理由与患者数据一起输入到LLM中，让LLM学习基于这些理由进行推理，从而做出最终的疾病诊断。整体流程是先生成理由，再利用理由辅助诊断。

关键创新：该论文的关键创新在于提出了一种“推理感知”的诊断框架，该框架利用提示工程自动生成诊断理由，并让LLM学习基于这些理由进行推理。这种方法有效地解决了临床推理数据标注成本高昂的问题，并充分利用了LLM的生成和推理能力。与现有方法相比，该方法无需人工标注推理过程，可以更高效地训练LLM进行临床推理。

关键设计：论文中关键的设计包括：1) 提示的设计：设计有效的提示，引导LLM生成高质量的诊断理由至关重要。提示需要包含足够的信息，以便LLM能够理解患者数据并生成合理的推理过程。2) 理由的评估：论文提出了一套新的标准，用于评估机器生成的理由在现实临床环境中的潜力。这些标准可以帮助研究人员评估生成的理由是否合理、准确和有用。3) 模型训练：在推理阶段，可以使用不同的训练方法，例如微调（Fine-tuning）或上下文学习（In-context learning），来训练LLM基于理由进行推理。

📊 实验亮点

论文通过大量实验验证了LLM在临床推理方面的能力。实验结果表明，基于提示生成的理由可以有效提升LLM的诊断准确率。此外，论文还提出了新的评估标准，为评估机器生成的理由提供了参考。具体的性能数据和对比基线在论文中进行了详细描述。

🎯 应用场景

该研究成果可应用于智能辅助诊断系统，帮助医生更准确、高效地进行疾病诊断。通过提供诊断理由，增强诊断过程的可解释性，提高医生的信任度。此外，该方法还可用于医学教育，帮助学生理解临床推理过程。未来，该研究可扩展到其他医疗领域，例如药物研发、个性化治疗等。

📄 摘要（原文）

Machine reasoning has made great progress in recent years owing to large language models (LLMs). In the clinical domain, however, most NLP-driven projects mainly focus on clinical classification or reading comprehension, and under-explore clinical reasoning for disease diagnosis due to the expensive rationale annotation with clinicians. In this work, we present a "reasoning-aware" diagnosis framework that rationalizes the diagnostic process via prompt-based learning in a time- and labor-efficient manner, and learns to reason over the prompt-generated rationales. Specifically, we address the clinical reasoning for disease diagnosis, where the LLM generates diagnostic rationales providing its insight on presented patient data and the reasoning path towards the diagnosis, namely Clinical Chain-of-Thought (Clinical CoT). We empirically demonstrate LLMs/LMs' ability of clinical reasoning via extensive experiments and analyses on both rationale generation and disease diagnosis in various settings. We further propose a novel set of criteria for evaluating machine-generated rationales' potential for real-world clinical settings, facilitating and benefiting future research in this area.

Large Language Models are Clinical Reasoners: Reasoning-Aware Diagnosis Framework with Prompt-Generated Rationales

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册