Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA

📄 arXiv: 2510.13856v1 📥 PDF

作者: A H M Rezaul Karim, Ozlem Uzuner

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-10-12


💡 一句话要点

MasonNLP提出基于检索增强生成和通用大语言模型的医疗VQA方法,在MEDIQA-WV 2025竞赛中排名第三。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学视觉问答 检索增强生成 大语言模型 多模态学习 临床决策支持

📋 核心要点

  1. 医学视觉问答面临挑战,需要系统能够理解图像和文本信息,并生成准确、符合临床规范的答案。
  2. 论文提出利用检索增强生成(RAG)框架,结合通用大语言模型,从领域内数据中检索相关示例,辅助答案生成。
  3. 实验结果表明,该方法在MEDIQA-WV 2025竞赛中取得了第三名的成绩,验证了其在多模态临床NLP任务中的有效性。

📝 摘要(中文)

医学视觉问答(MedVQA)通过医学图像上的自然语言查询来支持临床决策和患者护理。MEDIQA-WV 2025共享任务关注伤口护理VQA,要求系统从图像和患者查询中生成自由文本响应和结构化伤口属性。我们提出了MasonNLP系统,该系统采用通用领域的、指令调优的大语言模型,并结合检索增强生成(RAG)框架,该框架整合了来自领域内数据的文本和视觉示例。这种方法将输出建立在临床相关的示例之上,从而提高了推理、模式遵循和响应质量,通过dBLEU、ROUGE、BERTScore和基于LLM的指标进行评估。我们表现最佳的系统在19个团队和51个提交中排名第三,平均得分41.37%,这表明轻量级RAG与通用LLM相结合——一个最小的推理时层,通过简单的索引和融合添加一些相关的示例,无需额外的训练或复杂的重新排序——为多模态临床NLP任务提供了一个简单而有效的基线。

🔬 方法详解

问题定义:论文旨在解决医学视觉问答(MedVQA)任务中,如何利用图像和文本信息生成高质量答案的问题。现有方法在处理复杂医学图像和临床问题时,往往缺乏足够的领域知识,导致答案准确性和临床相关性不足。

核心思路:论文的核心思路是利用检索增强生成(RAG)框架,通过检索领域内相关的文本和视觉示例,为大语言模型提供额外的上下文信息,从而提高答案的质量和准确性。这种方法无需对大语言模型进行额外的训练,即可有效提升其在特定领域的表现。

技术框架:整体框架包括以下几个主要模块:1) 查询编码:将输入的图像和文本查询编码成向量表示。2) 检索:利用编码后的查询向量,从领域内数据集中检索相关的文本和视觉示例。3) 生成:将检索到的示例与原始查询一起输入到大语言模型中,生成最终的答案。

关键创新:最重要的技术创新点在于将检索增强生成(RAG)框架应用于医学视觉问答任务,并结合通用大语言模型,实现了在无需额外训练的情况下,有效提升答案质量和临床相关性。此外,该方法采用轻量级的RAG,避免了复杂的重新排序和训练过程,降低了计算成本。

关键设计:论文采用通用领域的、指令调优的大语言模型作为生成器。检索模块使用简单的索引和融合方法,将检索到的文本和视觉示例与原始查询进行融合。没有提及具体的损失函数或网络结构细节,重点在于RAG框架的有效性。

📊 实验亮点

MasonNLP系统在MEDIQA-WV 2025伤口护理VQA共享任务中排名第三,平均得分41.37%。该结果表明,轻量级RAG与通用大语言模型相结合,无需额外训练或复杂重排序,即可为多模态临床NLP任务提供简单有效的基线。

🎯 应用场景

该研究成果可应用于临床决策支持系统,辅助医生进行诊断和治疗方案制定。通过提供基于图像和文本查询的智能问答服务,可以提高医疗效率,改善患者护理质量。未来,该技术有望扩展到其他医学领域,例如病理图像分析、基因组学等。

📄 摘要(原文)

Medical Visual Question Answering (MedVQA) enables natural language queries over medical images to support clinical decision-making and patient care. The MEDIQA-WV 2025 shared task addressed wound-care VQA, requiring systems to generate free-text responses and structured wound attributes from images and patient queries. We present the MasonNLP system, which employs a general-domain, instruction-tuned large language model with a retrieval-augmented generation (RAG) framework that incorporates textual and visual examples from in-domain data. This approach grounds outputs in clinically relevant exemplars, improving reasoning, schema adherence, and response quality across dBLEU, ROUGE, BERTScore, and LLM-based metrics. Our best-performing system ranked 3rd among 19 teams and 51 submissions with an average score of 41.37%, demonstrating that lightweight RAG with general-purpose LLMs -- a minimal inference-time layer that adds a few relevant exemplars via simple indexing and fusion, with no extra training or complex re-ranking -- provides a simple and effective baseline for multimodal clinical NLP tasks.