MedBench-IT: A Comprehensive Benchmark for Evaluating Large Language Models on Italian Medical Entrance Examinations

作者: Ruggero Marino Lazzaroni, Alessandro Angioi, Michelangelo Puliga, Davide Sanna, Roberto Marras

分类: cs.CL

发布日期: 2025-09-08

备注: Accepted as an oral presentation at CLiC-it 2025

💡 一句话要点

MedBench-IT：首个意大利医学入学考试LLM综合评测基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医学入学考试 意大利语 评估基准 自然语言处理

📋 核心要点

现有针对非英语、特定领域的LLM评估基准匮乏，限制了LLM在这些领域的应用和发展。
MedBench-IT构建了一个包含17410道意大利医学入学考试题目的综合基准，用于评估LLM在该领域的性能。
实验评估了多种LLM，并分析了可重复性、排序偏差和问题可读性等因素，为后续研究提供参考。

📝 摘要（中文）

大型语言模型(LLMs)在教育领域展现出日益增长的潜力，但针对特定领域非英语语言的基准仍然稀缺。我们推出了MedBench-IT，这是首个用于评估LLMs在意大利医学大学入学考试表现的综合基准。MedBench-IT的数据来源于领先的备考材料出版商Edizioni Simone，包含17410道由专家编写的选择题，涵盖六个科目（生物、化学、逻辑、普通文化、数学、物理）和三个难度级别。我们评估了包括专有LLMs（GPT-4o、Claude系列）和资源高效的开源替代方案（<30B参数）在内的各种模型，重点关注实际部署能力。除了准确性之外，我们还进行了严格的可重复性测试（88.86%的响应一致性，因科目而异），排序偏差分析（影响极小）和推理提示评估。我们还检查了问题可读性与模型性能之间的相关性，发现了一种统计上显著但较小的负相关关系。MedBench-IT为意大利NLP社区、EdTech开发者和从业者提供了一个关键资源，为这一关键领域提供了对当前能力和标准化评估方法的见解。

🔬 方法详解

问题定义：论文旨在解决缺乏针对意大利语医学入学考试的LLM评估基准的问题。现有方法要么是通用基准无法准确反映特定领域的能力，要么是缺乏意大利语的专业数据集，导致无法有效评估LLM在意大利医学领域的应用潜力。

核心思路：论文的核心思路是构建一个高质量、大规模的意大利语医学入学考试题库，并基于此题库设计一套全面的评估流程，从而为LLM在该领域的性能提供客观、可靠的评估。通过分析模型在不同科目、不同难度级别上的表现，以及考察模型的可重复性、排序偏差等因素，可以更深入地了解LLM的优势和不足。

技术框架：MedBench-IT的整体框架包括以下几个主要步骤：1) 数据收集：从Edizioni Simone获取意大利医学入学考试题目，涵盖六个科目和三个难度级别。2) 数据清洗和整理：对原始数据进行清洗、去重、格式化等处理，确保数据的质量和一致性。3) 模型评估：选择多种LLM进行评估，包括专有模型和开源模型。4) 性能分析：分析模型在不同科目、不同难度级别上的准确率，并进行统计分析。5) 可靠性分析：评估模型的可重复性、排序偏差等因素。

关键创新：该论文的关键创新在于构建了首个针对意大利语医学入学考试的LLM评估基准MedBench-IT。该基准不仅提供了大规模、高质量的题库，还设计了一套全面的评估流程，包括性能分析、可靠性分析等。此外，论文还分析了问题可读性与模型性能之间的关系，为后续研究提供了新的视角。

关键设计：在模型评估方面，论文采用了标准的准确率作为评估指标。为了评估模型的可重复性，论文对同一问题多次提问，并计算响应的一致性。为了评估排序偏差，论文对选项的顺序进行随机打乱，并观察模型性能的变化。在问题可读性分析方面，论文采用了Flesch Reading Ease公式来计算问题的可读性得分，并分析其与模型性能之间的相关性。

📊 实验亮点

MedBench-IT基准包含17410道题目，涵盖六个科目和三个难度级别。实验结果表明，不同LLM在MedBench-IT上的表现存在差异，GPT-4o等专有模型表现优于开源模型。可重复性测试显示，模型的响应一致性为88.86%，排序偏差的影响极小。问题可读性与模型性能之间存在统计上显著但较小的负相关关系。

🎯 应用场景

MedBench-IT可应用于评估和改进LLM在意大利医学教育领域的应用，例如智能辅导系统、自动阅卷系统等。该基准还可以促进意大利语NLP技术的发展，并为其他语言的特定领域基准构建提供参考。此外，该研究可以帮助教育机构和学生更好地了解LLM的能力，从而更有效地利用LLM辅助学习。

📄 摘要（原文）

Large language models (LLMs) show increasing potential in education, yet benchmarks for non-English languages in specialized domains remain scarce. We introduce MedBench-IT, the first comprehensive benchmark for evaluating LLMs on Italian medical university entrance examinations. Sourced from Edizioni Simone, a leading preparatory materials publisher, MedBench-IT comprises 17,410 expert-written multiple-choice questions across six subjects (Biology, Chemistry, Logic, General Culture, Mathematics, Physics) and three difficulty levels. We evaluated diverse models including proprietary LLMs (GPT-4o, Claude series) and resource-efficient open-source alternatives (<30B parameters) focusing on practical deployability. Beyond accuracy, we conducted rigorous reproducibility tests (88.86% response consistency, varying by subject), ordering bias analysis (minimal impact), and reasoning prompt evaluation. We also examined correlations between question readability and model performance, finding a statistically significant but small inverse relationship. MedBench-IT provides a crucial resource for Italian NLP community, EdTech developers, and practitioners, offering insights into current capabilities and standardized evaluation methodology for this critical domain.

MedBench-IT: A Comprehensive Benchmark for Evaluating Large Language Models on Italian Medical Entrance Examinations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册