MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models

作者: Yan Cai, Linlin Wang, Ye Wang, Gerard de Melo, Ya Zhang, Yanfeng Wang, Liang He

分类: cs.CL, cs.AI

发布日期: 2023-12-20

备注: accepted by AAAI-24

💡 一句话要点

MedBench：构建大规模中文医学基准，评估医学大语言模型能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学大语言模型 中文基准 医学知识评估 临床推理 自然语言处理

📋 核心要点

现有医学LLM缺乏统一的评估标准，人工评估耗时费力，难以全面衡量模型能力。
MedBench构建包含40041道题目的中文医学基准，覆盖医师资格考试、住院医师培训和真实临床病例。
实验表明，现有中文医学LLM在MedBench上表现不佳，通用LLM展现出一定医学知识，但仍有提升空间。

📝 摘要（中文）

医学领域涌现出各种医学大语言模型（LLM），对统一评估标准的需求日益凸显，因为手动评估LLM既耗时又费力。为了解决这个问题，我们推出了MedBench，这是一个全面的中文医学领域基准，包含40041个问题，这些问题来源于真实的考试练习和不同医学分支的医学报告。具体来说，该基准由四个关键部分组成：中国医师资格考试、住院医师规范化培训考试、主治医师资格考试以及包含检查、诊断和治疗的真实临床病例。MedBench复现了中国大陆医生的教育进阶和临床实践经验，从而成为评估医学语言学习模型知识掌握和推理能力的可靠基准。我们进行了广泛的实验，并从不同角度进行了深入分析，最终得出以下结论：（1）中文医学LLM在该基准上的表现不佳，突出了在临床知识和诊断精度方面取得重大进展的必要性。（2）一些通用领域LLM出人意料地拥有相当多的医学知识。这些发现阐明了LLM在MedBench背景下的能力和局限性，最终目标是帮助医学研究界。

🔬 方法详解

问题定义：现有医学大语言模型缺乏统一、全面的中文评估基准。人工评估成本高昂，且难以覆盖医学领域的各个方面。因此，需要一个能够真实反映医生学习和工作流程的基准，以评估模型在临床知识和推理能力方面的表现。

核心思路：MedBench的核心思路是构建一个大规模、高质量的中文医学数据集，该数据集能够模拟中国医生的学习和临床实践过程。通过包含不同阶段的考试题目和真实病例，全面评估模型对医学知识的掌握程度和临床推理能力。

技术框架：MedBench主要包含四个模块：中国医师资格考试题目、住院医师规范化培训考试题目、主治医师资格考试题目以及真实临床病例。这些数据涵盖了医学知识的不同层次和临床实践的各个方面。研究人员可以使用MedBench来评估各种医学LLM，并分析其在不同任务上的表现。

关键创新：MedBench的关键创新在于其数据的真实性和全面性。它不仅包含了考试题目，还包含了真实临床病例，能够更真实地反映医生的工作场景。此外，MedBench是专门为中文医学领域设计的，能够更好地评估模型对中文医学知识的理解和应用能力。

关键设计：MedBench的数据来源于真实的考试和临床记录，经过严格的筛选和清洗，保证了数据的质量和可靠性。数据集的划分方式也经过精心设计，以确保评估的公平性和有效性。具体的数据统计信息（如各类题目的数量、难度分布等）未知，但整体目标是构建一个具有代表性的中文医学基准。

📊 实验亮点

实验结果表明，现有的中文医学LLM在MedBench上的表现普遍不佳，这突显了在临床知识和诊断精度方面仍有很大的提升空间。令人惊讶的是，一些通用领域的LLM展现出了一定的医学知识，但与专业医生相比仍存在显著差距。具体的性能指标和对比基线未知，但整体结果表明MedBench能够有效区分不同模型的医学能力。

🎯 应用场景

MedBench可用于评估和改进医学大语言模型，助力开发更智能的医疗辅助工具，例如辅助诊断系统、医学知识问答系统和临床决策支持系统。该基准能够推动中文医学自然语言处理的发展，并最终提升医疗服务的质量和效率。

📄 摘要（原文）

The emergence of various medical large language models (LLMs) in the medical domain has highlighted the need for unified evaluation standards, as manual evaluation of LLMs proves to be time-consuming and labor-intensive. To address this issue, we introduce MedBench, a comprehensive benchmark for the Chinese medical domain, comprising 40,041 questions sourced from authentic examination exercises and medical reports of diverse branches of medicine. In particular, this benchmark is composed of four key components: the Chinese Medical Licensing Examination, the Resident Standardization Training Examination, the Doctor In-Charge Qualification Examination, and real-world clinic cases encompassing examinations, diagnoses, and treatments. MedBench replicates the educational progression and clinical practice experiences of doctors in Mainland China, thereby establishing itself as a credible benchmark for assessing the mastery of knowledge and reasoning abilities in medical language learning models. We perform extensive experiments and conduct an in-depth analysis from diverse perspectives, which culminate in the following findings: (1) Chinese medical LLMs underperform on this benchmark, highlighting the need for significant advances in clinical knowledge and diagnostic precision. (2) Several general-domain LLMs surprisingly possess considerable medical knowledge. These findings elucidate both the capabilities and limitations of LLMs within the context of MedBench, with the ultimate goal of aiding the medical research community.

MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册