Evaluating the Performance of Large Language Models for Spanish Language in Undergraduate Admissions Exams

作者: Sabino Miranda, Obdulia Pichardo-Lagunas, Bella Martínez-Seis, Pierre Baldi

分类: cs.CL, cs.AI

发布日期: 2023-12-28

备注: 11 pages, 1 figure. Submitted to a journal

💡 一句话要点

评估大型语言模型在西班牙语本科入学考试中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 西班牙语 本科入学考试 教育评估 GPT-3.5 BARD Gemini Pro

📋 核心要点

核心问题是评估现有大型语言模型在特定语言（西班牙语）和特定领域（本科入学考试）的实际应用能力。
研究核心在于利用GPT-3.5和BARD模型直接解答墨西哥国家理工学院的本科入学考试题目，以此评估其性能。
实验结果表明，两种模型均能达到及格线，GPT-3.5在数理方面略优，BARD在历史事实方面更佳，整体性能接近。

📝 摘要（中文）

本研究评估了大型语言模型，特别是GPT-3.5和BARD（由Gemini Pro模型支持）在墨西哥国家理工学院提出的本科入学考试中的表现。考试涵盖工程/数学和物理科学、生物和医学科学以及社会和管理科学。两种模型都表现出熟练程度，超过了各自学术课程的最低录取分数线，在某些学术课程中高达75%。GPT-3.5在数学和物理方面的表现优于BARD，而BARD在历史和与事实信息相关的问题上表现更好。总体而言，GPT-3.5略微超过BARD，得分分别为60.94%和60.42%。

🔬 方法详解

问题定义：本研究旨在评估大型语言模型在西班牙语本科入学考试中的表现。现有方法缺乏对LLM在特定语言和教育场景下能力的系统性评估，难以了解其在实际应用中的局限性。

核心思路：核心思路是直接使用LLM解答真实的本科入学考试题目，通过客观的考试成绩来评估其能力。这种方法模拟了实际应用场景，能够更真实地反映LLM的性能。

技术框架：研究框架主要包含以下几个步骤：1）选取墨西哥国家理工学院的本科入学考试题目，涵盖不同学科；2）使用GPT-3.5和BARD模型解答这些题目；3）根据评分标准对答案进行评分；4）比较两种模型的表现，并分析其优缺点。

关键创新：本研究的关键创新在于将LLM应用于西班牙语的本科入学考试场景，并对模型的表现进行了细致的分析。这为评估LLM在特定语言和教育领域的应用潜力提供了新的视角。

关键设计：研究中没有提及具体的参数设置或网络结构细节。主要关注的是模型在实际考试场景中的表现，而非模型的内部结构或训练方式。重点在于比较GPT-3.5和BARD在不同科目上的得分，并分析其差异。

📊 实验亮点

实验结果显示，GPT-3.5和BARD在本科入学考试中均表现出一定的能力，超过了部分专业的最低录取分数线。GPT-3.5总体得分略高于BARD（60.94% vs 60.42%），但在不同科目上各有优势。GPT-3.5在数学和物理方面表现更好，而BARD在历史和事实性问题上更出色。这表明不同LLM在不同领域的知识掌握程度存在差异。

🎯 应用场景

该研究结果可用于评估和改进大型语言模型在教育领域的应用，例如辅助教学、智能答疑和个性化学习。此外，该方法可以推广到其他语言和考试类型，为教育评估提供新的工具和方法。未来的研究可以探索如何利用LLM生成高质量的教育内容，并提高学生的学习效率。

📄 摘要（原文）

This study evaluates the performance of large language models, specifically GPT-3.5 and BARD (supported by Gemini Pro model), in undergraduate admissions exams proposed by the National Polytechnic Institute in Mexico. The exams cover Engineering/Mathematical and Physical Sciences, Biological and Medical Sciences, and Social and Administrative Sciences. Both models demonstrated proficiency, exceeding the minimum acceptance scores for respective academic programs to up to 75% for some academic programs. GPT-3.5 outperformed BARD in Mathematics and Physics, while BARD performed better in History and questions related to factual information. Overall, GPT-3.5 marginally surpassed BARD with scores of 60.94% and 60.42%, respectively.

Evaluating the Performance of Large Language Models for Spanish Language in Undergraduate Admissions Exams

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册