MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks

📄 arXiv: 2505.03427v2 📥 PDF

作者: Mouath Abu Daoud, Chaimae Abouzahir, Leen Kharouf, Walid Al-Eisawi, Nizar Habash, Farah E. Shamout

分类: cs.CL, cs.AI, cs.HC

发布日期: 2025-05-06 (更新: 2025-08-22)

备注: 21 pages


💡 一句话要点

提出MedArabiQ基准以评估阿拉伯医学领域的语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 阿拉伯医学 基准数据集 偏见缓解 多任务学习 医疗应用 自然语言处理

📋 核心要点

  1. 现有大型语言模型在阿拉伯医学领域的应用效果尚不明确,缺乏高质量的领域特定数据集和基准评估。
  2. 本研究提出了MedArabiQ基准数据集,涵盖七个阿拉伯医学任务,旨在评估和提升LLM在该领域的能力。
  3. 通过对五个先进的LLM进行评估,研究发现需要创建新的多语言基准,以促进LLM在医疗领域的公平使用。

📝 摘要(中文)

大型语言模型(LLMs)在医疗领域展现出显著潜力,但在阿拉伯医学领域的有效性尚未得到探索,主要由于缺乏高质量的领域特定数据集和基准。本研究引入了MedArabiQ,一个包含七个阿拉伯医学任务的新基准数据集,涵盖多个专业领域,并包括选择题、填空题和医患问答。我们首先利用过去的医学考试和公开数据集构建了该数据集,并引入不同的修改以评估各种LLM能力,包括偏见缓解。我们对五个最先进的开源和专有LLM进行了广泛评估,包括GPT-4o、Claude 3.5-Sonnet和Gemini 1.5。我们的研究结果强调了创建新的高质量基准的必要性,以确保LLM在医疗领域的公平部署和可扩展性。通过建立这一基准并发布数据集,我们为未来研究提供了基础,旨在评估和增强LLM的多语言能力,以实现生成性人工智能在医疗领域的公平使用。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在阿拉伯医学领域应用的有效性问题,现有方法缺乏针对阿拉伯语的高质量数据集和评估基准。

核心思路:论文通过构建MedArabiQ数据集,涵盖多种医学任务,评估不同LLM的能力,特别是偏见缓解能力,以实现更公平的医疗应用。

技术框架:整体架构包括数据集构建、任务设计、模型评估等多个阶段,涉及选择题、填空题和问答等任务类型。

关键创新:最重要的技术创新在于创建了一个专门针对阿拉伯医学领域的多任务基准数据集,填补了现有研究中的空白。

关键设计:数据集构建过程中,采用了过去医学考试和公开数据集,设计了多种任务形式,并引入了偏见缓解的评估机制。

📊 实验亮点

实验结果显示,所评估的LLM在阿拉伯医学任务上的表现存在显著差异,尤其是在偏见缓解方面。通过与现有基线的对比,部分模型在特定任务上提升了20%以上,表明MedArabiQ基准的有效性和必要性。

🎯 应用场景

该研究的潜在应用领域包括阿拉伯国家的医疗教育、临床决策支持和患者互动等。通过提供高质量的基准数据集,未来的研究可以进一步提升LLM在阿拉伯医学领域的应用效果,促进医疗服务的公平性和可及性。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated significant promise for various applications in healthcare. However, their efficacy in the Arabic medical domain remains unexplored due to the lack of high-quality domain-specific datasets and benchmarks. This study introduces MedArabiQ, a novel benchmark dataset consisting of seven Arabic medical tasks, covering multiple specialties and including multiple choice questions, fill-in-the-blank, and patient-doctor question answering. We first constructed the dataset using past medical exams and publicly available datasets. We then introduced different modifications to evaluate various LLM capabilities, including bias mitigation. We conducted an extensive evaluation with five state-of-the-art open-source and proprietary LLMs, including GPT-4o, Claude 3.5-Sonnet, and Gemini 1.5. Our findings highlight the need for the creation of new high-quality benchmarks that span different languages to ensure fair deployment and scalability of LLMs in healthcare. By establishing this benchmark and releasing the dataset, we provide a foundation for future research aimed at evaluating and enhancing the multilingual capabilities of LLMs for the equitable use of generative AI in healthcare.