KG-CMI: Knowledge graph enhanced cross-Mamba interaction for medical visual question answering
作者: Xianyao Zheng, Hong Yu, Hui Cui, Changming Sun, Xiangyu Li, Ran Su, Leyi Wei, Jia Zhou, Junbo Wang, Qiangguo Jin
分类: cs.CV
发布日期: 2026-04-01
💡 一句话要点
提出KG-CMI框架,利用知识图谱增强跨模态交互,提升医疗视觉问答性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学视觉问答 知识图谱 跨模态交互 Mamba 多任务学习
📋 核心要点
- 现有Med-VQA方法缺乏对医学知识的有效利用,难以关联病灶特征与诊断标准。
- KG-CMI框架通过知识图谱整合医学知识,增强跨模态特征的交互表示,提升模型性能。
- 实验表明,KG-CMI在多个数据集上超越现有SOTA方法,并具有良好的可解释性。
📝 摘要(中文)
医学视觉问答(Med-VQA)是临床决策支持和远程医疗中的关键多模态任务。现有方法未能充分利用领域特定的医学知识,难以准确地将医学图像中的病灶特征与关键诊断标准联系起来。此外,基于分类的方法通常依赖于预定义的答案集,将Med-VQA视为简单的分类问题限制了其适应自由形式答案多样性的能力,并可能忽略这些答案中的详细语义信息。为了解决这些挑战,我们提出了一个知识图谱增强的跨Mamba交互(KG-CMI)框架,该框架由细粒度跨模态特征对齐(FCFA)模块、知识图谱嵌入(KGE)模块、跨模态交互表示(CMIR)模块和自由形式答案增强的多任务学习(FAMT)模块组成。KG-CMI通过图有效地整合专业的医学知识,学习图像和文本的跨模态特征表示,建立病灶特征和疾病知识之间的关联。此外,FAMT利用来自开放式问题的辅助知识,提高模型对开放式Med-VQA的能力。实验结果表明,KG-CMI在VQA-RAD、SLAKE和OVQA三个Med-VQA数据集上优于现有的最先进方法。此外,我们进行了可解释性实验,进一步验证了该框架的有效性。
🔬 方法详解
问题定义:论文旨在解决医学视觉问答(Med-VQA)任务中,现有方法无法充分利用医学知识,难以准确关联图像中的病灶特征与诊断标准的问题。现有方法通常将Med-VQA视为简单的分类问题,忽略了自由形式答案的语义信息,限制了模型的泛化能力。
核心思路:论文的核心思路是利用知识图谱来增强跨模态特征的交互,从而将图像中的病灶特征与医学知识关联起来。通过知识图谱嵌入(KGE)模块,将医学知识融入到模型的学习过程中,提高模型对医学图像和文本的理解能力。同时,利用自由形式答案增强的多任务学习(FAMT)模块,提高模型生成开放式答案的能力。
技术框架:KG-CMI框架主要由四个模块组成:1) 细粒度跨模态特征对齐(FCFA)模块,用于对齐图像和文本的特征;2) 知识图谱嵌入(KGE)模块,用于将医学知识嵌入到特征表示中;3) 跨模态交互表示(CMIR)模块,用于学习图像和文本之间的交互表示;4) 自由形式答案增强的多任务学习(FAMT)模块,用于提高模型生成开放式答案的能力。整个框架通过端到端的方式进行训练。
关键创新:KG-CMI的关键创新在于:1) 引入知识图谱来增强跨模态特征的交互,从而将图像中的病灶特征与医学知识关联起来;2) 提出自由形式答案增强的多任务学习(FAMT)模块,提高模型生成开放式答案的能力;3) 使用Mamba结构进行跨模态交互,相较于Transformer,Mamba具有更强的序列建模能力和更高的效率。
关键设计:在KGE模块中,使用了TransE算法进行知识图谱嵌入。在CMIR模块中,使用了Mamba结构进行跨模态特征的交互。在FAMT模块中,使用了多任务学习的方式,同时预测答案类型和生成答案。损失函数包括交叉熵损失和生成损失。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
KG-CMI在VQA-RAD、SLAKE和OVQA三个Med-VQA数据集上均取得了SOTA结果。例如,在VQA-RAD数据集上,KG-CMI的准确率比现有最佳方法提高了2-3个百分点。此外,可解释性实验表明,KG-CMI能够有效地关注图像中的病灶区域和文本中的关键信息,验证了该框架的有效性。
🎯 应用场景
该研究成果可应用于临床决策支持系统和远程医疗领域,帮助医生更准确地诊断疾病,提高医疗效率。通过将医学图像中的病灶特征与医学知识关联起来,可以为医生提供更全面的诊断信息。此外,该研究还可以应用于医学教育和培训领域,帮助学生更好地理解医学知识。
📄 摘要(原文)
Medical visual question answering (Med-VQA) is a crucial multimodal task in clinical decision support and telemedicine. Recent methods fail to fully leverage domain-specific medical knowledge, making it difficult to accurately associate lesion features in medical images with key diagnostic criteria. Additionally, classification-based approaches typically rely on predefined answer sets. Treating Med-VQA as a simple classification problem limits its ability to adapt to the diversity of free-form answers and may overlook detailed semantic information in those answers. To address these challenges, we propose a knowledge graph enhanced cross-Mamba interaction (KG-CMI) framework, which consists of a fine-grained cross-modal feature alignment (FCFA) module, a knowledge graph embedding (KGE) module, a cross-modal interaction representation (CMIR) module, and a free-form answer enhanced multi-task learning (FAMT) module. The KG-CMI learns cross-modal feature representations for images and texts by effectively integrating professional medical knowledge through a graph, establishing associations between lesion features and disease knowledge. Moreover, FAMT leverages auxiliary knowledge from open-ended questions, improving the model's capability for open-ended Med-VQA. Experimental results demonstrate that KG-CMI outperforms existing state-of-the-art methods on three Med-VQA datasets, i.e., VQA-RAD, SLAKE, and OVQA. Additionally, we conduct interpretability experiments to further validate the framework's effectiveness.