MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning

📄 arXiv: 2506.00555v2 📥 PDF

作者: Peng Xia, Jinglu Wang, Yibo Peng, Kaide Zeng, Xian Wu, Xiangru Tang, Hongtu Zhu, Yun Li, Shujie Liu, Yan Lu, Huaxiu Yao

分类: cs.LG, cs.AI, cs.CL, cs.CV

发布日期: 2025-05-31 (更新: 2025-06-17)


💡 一句话要点

提出MMedAgent-RL以解决多模态医疗推理中的协作问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态医疗推理 强化学习 多代理协作 医疗决策支持 课程学习 分诊系统 智能医疗助手

📋 核心要点

  1. 现有的单一代理模型在医疗专业之间的泛化能力不足,导致性能受限。
  2. 提出MMedAgent-RL,通过强化学习实现医疗代理的动态优化协作,提升推理能力。
  3. 在五个医疗VQA基准上,MMedAgent-RL超越了现有的开源和专有Med-LVLMs,平均性能提升20.7%。

📝 摘要(中文)

医疗大型视觉语言模型(Med-LVLMs)在多模态诊断任务中展现出强大的潜力。然而,现有的单一代理模型在不同医疗专业之间的泛化能力不足,限制了其性能。为了解决这一问题,本文提出了MMedAgent-RL,一个基于强化学习的多代理框架,能够实现医疗代理之间的动态优化协作。我们训练了两个基于Qwen2.5-VL的GP代理,分别负责患者分诊和最终决策。通过引入课程学习指导的强化学习策略,逐步教导主治医生在模仿专家与纠正错误之间取得平衡。实验结果表明,MMedAgent-RL在五个医疗VQA基准上表现优异,平均性能提升达到20.7%。

🔬 方法详解

问题定义:本文旨在解决现有单一代理模型在多模态医疗推理中的泛化能力不足,导致的性能限制。现有的多代理协作框架缺乏灵活性和适应性,无法有效应对复杂的医疗决策场景。

核心思路:MMedAgent-RL通过强化学习实现医疗代理之间的动态协作,特别是通过训练分诊医生和主治医生,使其能够在不同医疗专业之间高效互动,从而提升整体决策质量。

技术框架:该框架包含两个主要模块:分诊医生负责将患者分配给合适的专业,而主治医生则整合多位专家的判断与自身知识进行最终决策。通过课程学习指导的强化学习策略,主治医生逐步学习如何在模仿专家与纠正错误之间取得平衡。

关键创新:最重要的创新在于引入了课程学习指导的强化学习策略,使得主治医生能够在动态环境中灵活调整决策策略,从而克服专家输出不一致的问题。这一设计显著提升了模型的适应性和推理能力。

关键设计:在参数设置上,采用了基于Qwen2.5-VL的模型架构,并设计了适应性损失函数,以平衡模仿专家与纠正错误的学习过程。网络结构上,分诊医生和主治医生的交互机制经过精心设计,以确保信息的有效传递与整合。

📊 实验亮点

实验结果显示,MMedAgent-RL在五个医疗VQA基准上表现优异,超越了现有的开源和专有Med-LVLMs,平均性能提升达到20.7%。该模型不仅在准确性上有所提升,还展现出更接近人类的推理模式,具有重要的临床应用价值。

🎯 应用场景

该研究的潜在应用领域包括医疗诊断支持系统、智能医疗助手和临床决策支持工具。通过提升多模态医疗推理的协作能力,MMedAgent-RL能够帮助医生更高效地进行诊断和治疗决策,最终提高患者的医疗服务质量。未来,该框架有望在更广泛的医疗场景中推广应用,推动智能医疗的发展。

📄 摘要(原文)

Medical Large Vision-Language Models (Med-LVLMs) have shown strong potential in multimodal diagnostic tasks. However, existing single-agent models struggle to generalize across diverse medical specialties, limiting their performance. Recent efforts introduce multi-agent collaboration frameworks inspired by clinical workflows, where general practitioners (GPs) and specialists interact in a fixed sequence. Despite improvements, these static pipelines lack flexibility and adaptability in reasoning. To address this, we propose MMedAgent-RL, a reinforcement learning (RL)-based multi-agent framework that enables dynamic, optimized collaboration among medical agents. Specifically, we train two GP agents based on Qwen2.5-VL via RL: the triage doctor learns to assign patients to appropriate specialties, while the attending physician integrates the judgments from multi-specialists and its own knowledge to make final decisions. To address the inconsistency in specialist outputs, we introduce a curriculum learning (CL)-guided RL strategy that progressively teaches the attending physician to balance between imitating specialists and correcting their mistakes. Experiments on five medical VQA benchmarks demonstrate that MMedAgent-RL not only outperforms both open-source and proprietary Med-LVLMs, but also exhibits human-like reasoning patterns. Notably, it achieves an average performance gain of 20.7% over supervised fine-tuning baselines.