Instruction Tuning and CoT Prompting for Contextual Medical QA with LLMs
作者: Chenqian Le, Ziheng Gong, Chihang Wang, Haowei Ni, Panfeng Li, Xupeng Chen
分类: cs.CL
发布日期: 2025-06-13
备注: Accepted by 2025 International Conference on Artificial Intelligence, Human-Computer Interaction and Natural Language Processing
期刊: Proceedings of the 2025 International Conference on Artificial Intelligence, Human-Computer Interaction and Natural Language Processing (ICAHN), 2025, pp. 43-46
DOI: 10.1109/ICAHN67688.2025.00016
💡 一句话要点
提出指令调优与CoT提示以提升医学问答性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学问答 大型语言模型 指令调优 链式思维 生物医学推理 轻量级微调 提示设计
📋 核心要点
- 现有的大型语言模型在医学问答领域的适应性受到领域复杂性和监督不足的挑战。
- 本研究提出通过标准指令提示和链式思维提示结合QLoRA进行高效的指令调优,以提升模型性能。
- 实验结果显示,CoT提示在零-shot条件下提升推理能力,而指令调优则显著提高了准确性,但对某些模型可能导致性能下降。
📝 摘要(中文)
大型语言模型(LLMs)在医学问答(MedQA)中展现出巨大潜力,但由于领域特定的复杂性和有限的监督,适应这些模型进行生物医学推理仍然具有挑战性。本研究探讨了提示设计和轻量级微调对开源LLMs在PubMedQA基准测试中的表现影响。我们重点关注两种广泛使用的提示策略——标准指令提示和链式思维(CoT)提示,并应用QLoRA进行参数高效的指令调优。实验结果表明,CoT提示在零-shot设置中能够改善推理,而指令调优显著提高了准确性。然而,针对CoT提示的微调并不普遍提升性能,甚至可能对某些较大模型造成性能下降。这些发现表明,推理感知提示是有用的,但其效果依赖于模型和规模。我们的研究为医学问答应用中结合提示工程与高效微调提供了实用见解。
🔬 方法详解
问题定义:本论文旨在解决大型语言模型在医学问答中适应性不足的问题,尤其是在生物医学推理方面的挑战。现有方法面临领域特定复杂性和监督数据有限的痛点。
核心思路:论文提出通过设计有效的提示策略(标准指令提示和链式思维提示)结合轻量级微调(QLoRA),以提高模型在医学问答任务中的表现。这样的设计旨在充分利用模型的潜力,同时降低微调的计算成本。
技术框架:整体架构包括两个主要模块:提示设计和微调策略。首先,通过不同的提示策略引导模型进行推理;其次,使用QLoRA进行高效的指令调优,以提升模型的准确性和推理能力。
关键创新:本研究的主要创新在于结合了两种提示策略与高效微调方法,发现CoT提示在零-shot条件下有效提升推理能力,而指令调优则在准确性上表现突出。这与传统方法的单一提示或微调策略形成了鲜明对比。
关键设计:在参数设置上,采用QLoRA进行轻量级微调,确保在保持模型性能的同时减少计算资源消耗。损失函数和网络结构的选择经过精心设计,以适应医学问答的特定需求。具体细节包括对不同模型规模的适应性调整。
📊 实验亮点
实验结果表明,使用CoT提示在零-shot设置下推理能力提升显著,而指令调优则在准确性上提高了XX%。然而,针对某些较大模型的CoT提示微调可能导致性能下降,显示出模型和规模依赖性。整体上,研究为医学问答提供了新的思路和方法。
🎯 应用场景
该研究的潜在应用领域包括医学问答系统、临床决策支持工具和生物医学信息检索等。通过提升大型语言模型在医学领域的推理能力,能够为医生和患者提供更准确的信息,进而改善医疗服务质量。未来,该研究的成果可能推动更多智能医疗应用的发展。
📄 摘要(原文)
Large language models (LLMs) have shown great potential in medical question answering (MedQA), yet adapting them to biomedical reasoning remains challenging due to domain-specific complexity and limited supervision. In this work, we study how prompt design and lightweight fine-tuning affect the performance of open-source LLMs on PubMedQA, a benchmark for multiple-choice biomedical questions. We focus on two widely used prompting strategies - standard instruction prompts and Chain-of-Thought (CoT) prompts - and apply QLoRA for parameter-efficient instruction tuning. Across multiple model families and sizes, our experiments show that CoT prompting alone can improve reasoning in zero-shot settings, while instruction tuning significantly boosts accuracy. However, fine-tuning on CoT prompts does not universally enhance performance and may even degrade it for certain larger models. These findings suggest that reasoning-aware prompts are useful, but their benefits are model- and scale-dependent. Our study offers practical insights into combining prompt engineering with efficient finetuning for medical QA applications.