Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA

作者: A H M Rezaul Karim, Ozlem Uzuner

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-10-12

💡 一句话要点

MasonNLP提出基于检索增强生成和通用大语言模型的医疗VQA方法，在MEDIQA-WV 2025竞赛中排名第三。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学视觉问答 检索增强生成 大语言模型 多模态学习 临床决策支持

📋 核心要点

医学视觉问答面临挑战，需要系统能够理解图像和文本信息，并生成准确、符合临床规范的答案。
论文提出利用检索增强生成（RAG）框架，结合通用大语言模型，从领域内数据中检索相关示例，辅助答案生成。
实验结果表明，该方法在MEDIQA-WV 2025竞赛中取得了第三名的成绩，验证了其在多模态临床NLP任务中的有效性。

📝 摘要（中文）

医学视觉问答(MedVQA)通过医学图像上的自然语言查询来支持临床决策和患者护理。MEDIQA-WV 2025共享任务关注伤口护理VQA，要求系统从图像和患者查询中生成自由文本响应和结构化伤口属性。我们提出了MasonNLP系统，该系统采用通用领域的、指令调优的大语言模型，并结合检索增强生成(RAG)框架，该框架整合了来自领域内数据的文本和视觉示例。这种方法将输出建立在临床相关的示例之上，从而提高了推理、模式遵循和响应质量，通过dBLEU、ROUGE、BERTScore和基于LLM的指标进行评估。我们表现最佳的系统在19个团队和51个提交中排名第三，平均得分41.37%，这表明轻量级RAG与通用LLM相结合——一个最小的推理时层，通过简单的索引和融合添加一些相关的示例，无需额外的训练或复杂的重新排序——为多模态临床NLP任务提供了一个简单而有效的基线。

🔬 方法详解

问题定义：论文旨在解决医学视觉问答（MedVQA）任务中，如何利用图像和文本信息生成高质量答案的问题。现有方法在处理复杂医学图像和临床问题时，往往缺乏足够的领域知识，导致答案准确性和临床相关性不足。

核心思路：论文的核心思路是利用检索增强生成（RAG）框架，通过检索领域内相关的文本和视觉示例，为大语言模型提供额外的上下文信息，从而提高答案的质量和准确性。这种方法无需对大语言模型进行额外的训练，即可有效提升其在特定领域的表现。

技术框架：整体框架包括以下几个主要模块：1) 查询编码：将输入的图像和文本查询编码成向量表示。2) 检索：利用编码后的查询向量，从领域内数据集中检索相关的文本和视觉示例。3) 生成：将检索到的示例与原始查询一起输入到大语言模型中，生成最终的答案。

关键创新：最重要的技术创新点在于将检索增强生成（RAG）框架应用于医学视觉问答任务，并结合通用大语言模型，实现了在无需额外训练的情况下，有效提升答案质量和临床相关性。此外，该方法采用轻量级的RAG，避免了复杂的重新排序和训练过程，降低了计算成本。

关键设计：论文采用通用领域的、指令调优的大语言模型作为生成器。检索模块使用简单的索引和融合方法，将检索到的文本和视觉示例与原始查询进行融合。没有提及具体的损失函数或网络结构细节，重点在于RAG框架的有效性。

📊 实验亮点

MasonNLP系统在MEDIQA-WV 2025伤口护理VQA共享任务中排名第三，平均得分41.37%。该结果表明，轻量级RAG与通用大语言模型相结合，无需额外训练或复杂重排序，即可为多模态临床NLP任务提供简单有效的基线。

🎯 应用场景

该研究成果可应用于临床决策支持系统，辅助医生进行诊断和治疗方案制定。通过提供基于图像和文本查询的智能问答服务，可以提高医疗效率，改善患者护理质量。未来，该技术有望扩展到其他医学领域，例如病理图像分析、基因组学等。

📄 摘要（原文）

Medical Visual Question Answering (MedVQA) enables natural language queries over medical images to support clinical decision-making and patient care. The MEDIQA-WV 2025 shared task addressed wound-care VQA, requiring systems to generate free-text responses and structured wound attributes from images and patient queries. We present the MasonNLP system, which employs a general-domain, instruction-tuned large language model with a retrieval-augmented generation (RAG) framework that incorporates textual and visual examples from in-domain data. This approach grounds outputs in clinically relevant exemplars, improving reasoning, schema adherence, and response quality across dBLEU, ROUGE, BERTScore, and LLM-based metrics. Our best-performing system ranked 3rd among 19 teams and 51 submissions with an average score of 41.37%, demonstrating that lightweight RAG with general-purpose LLMs -- a minimal inference-time layer that adds a few relevant exemplars via simple indexing and fusion, with no extra training or complex re-ranking -- provides a simple and effective baseline for multimodal clinical NLP tasks.

Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册