PalmX 2025: The First Shared Task on Benchmarking LLMs on Arabic and Islamic Culture

📄 arXiv: 2509.02550v1 📥 PDF

作者: Fakhraddin Alwajih, Abdellah El Mekki, Hamdy Mubarak, Majd Hawasly, Abubakr Mohamed, Muhammad Abdul-Mageed

分类: cs.CL

发布日期: 2025-09-02

备注: https://palmx.dlnlp.ai/


💡 一句话要点

PalmX 2025:首个面向阿拉伯和伊斯兰文化的大语言模型评测共享任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 阿拉伯文化 伊斯兰文化 文化知识 共享任务 基准评测 参数高效微调

📋 核心要点

  1. 现有大语言模型在阿拉伯和伊斯兰文化知识方面存在不足,尤其是在代表性不足的主题上。
  2. PalmX 2025共享任务旨在通过多项选择题评测LLM在阿拉伯和伊斯兰文化领域的理解能力。
  3. 实验结果表明,针对特定任务的微调可以显著提高模型性能,参数高效微调是有效方法。

📝 摘要(中文)

大型语言模型(LLMs)在预训练阶段会受到大量数据的分布影响。由于这些数据主要来自网络,因此很可能偏向于高资源语言和文化,例如西方文化。因此,LLM通常对某些社群的理解不足,尤其是在阿拉伯和伊斯兰文化知识方面。对于代表性不足的主题,这个问题更加突出。为了应对这一挑战,我们推出了PalmX 2025,这是首个旨在评估LLM在这些特定领域文化能力的共享任务。该任务由两个子任务组成,均采用现代标准阿拉伯语(MSA)的多项选择题(MCQ):通用阿拉伯文化和通用伊斯兰文化。这些子任务涵盖了广泛的主题,包括来自22个阿拉伯国家的传统、食物、历史、宗教习俗和语言表达。该倡议引起了广泛关注,共有26个团队注册了子任务1,19个团队注册了子任务2,最终分别有9个和6个有效提交。我们的研究结果表明,针对特定任务的微调可以显著提高基线模型的性能。表现最佳的系统在文化问题上的准确率达到72.15%,在伊斯兰知识上的准确率达到84.22%。参数高效微调成为参与者中最主要和最有效的方法,而数据增强的效用被发现是领域相关的。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在理解和处理阿拉伯及伊斯兰文化相关知识时存在的不足。现有LLM的预训练数据偏向于高资源语言和文化,导致其在阿拉伯和伊斯兰文化领域的知识储备和理解能力相对薄弱,尤其是在一些代表性不足的细分领域。这限制了LLM在相关领域的应用。

核心思路:论文的核心思路是通过构建一个专门的评测基准(PalmX 2025)来系统性地评估LLM在阿拉伯和伊斯兰文化领域的知识水平。该基准包含多项选择题,涵盖了广泛的文化和宗教主题。通过组织共享任务,鼓励研究人员开发针对性方法,提升LLM在该领域的表现。这样设计的目的是为了激发社区对该问题的关注,并促进相关技术的发展。

技术框架:PalmX 2025共享任务的技术框架主要包括以下几个部分: 1. 数据集构建:构建包含通用阿拉伯文化和通用伊斯兰文化两个子任务的多项选择题数据集,题目涵盖传统、食物、历史、宗教习俗和语言表达等多个方面。 2. 基线模型:提供基线模型作为参考,例如未经微调的LLM。 3. 评估指标:使用准确率作为评估LLM在该基准上的性能指标。 4. 共享任务组织:组织共享任务,邀请研究团队提交模型,并在统一的基准上进行评估和比较。 5. 结果分析:分析各团队提交的模型在不同子任务上的表现,总结有效的方法和技术。

关键创新:该论文的关键创新在于: 1. 首个专门针对阿拉伯和伊斯兰文化知识的LLM评测基准:PalmX 2025填补了该领域的空白,为评估和提升LLM在该领域的表现提供了标准化的平台。 2. 共享任务的形式:通过组织共享任务,吸引了大量研究人员参与,促进了相关技术的发展和交流。 与现有方法相比,PalmX 2025不是提出一种新的模型或算法,而是提供了一个评估和比较现有模型在特定领域表现的平台。

关键设计:PalmX 2025的关键设计包括: 1. 多项选择题的形式:选择多项选择题作为评估形式,便于量化LLM的知识水平。 2. 现代标准阿拉伯语(MSA):使用MSA作为题目语言,保证了数据集的通用性和可访问性。 3. 广泛的主题覆盖:题目涵盖了阿拉伯和伊斯兰文化的多个方面,保证了评估的全面性。 4. 任务特定微调:鼓励参与者使用任务特定微调等方法来提升模型性能。

📊 实验亮点

实验结果表明,任务特定微调能够显著提升LLM在阿拉伯和伊斯兰文化知识问答上的性能。表现最佳的系统在文化问题上的准确率达到72.15%,在伊斯兰知识上的准确率达到84.22%。参数高效微调是参与者中最主要和最有效的方法,数据增强的效用则依赖于具体领域。

🎯 应用场景

该研究成果可应用于提升大语言模型在阿拉伯和伊斯兰文化相关领域的应用,例如智能客服、文化遗产保护、宗教知识问答等。通过提高LLM对这些文化的理解,可以更好地服务于相关社群,并促进跨文化交流。未来,该研究可以扩展到其他低资源语言和文化领域,提升LLM的全球适用性。

📄 摘要(原文)

Large Language Models (LLMs) inherently reflect the vast data distributions they encounter during their pre-training phase. As this data is predominantly sourced from the web, there is a high chance it will be skewed towards high-resourced languages and cultures, such as those of the West. Consequently, LLMs often exhibit a diminished understanding of certain communities, a gap that is particularly evident in their knowledge of Arabic and Islamic cultures. This issue becomes even more pronounced with increasingly under-represented topics. To address this critical challenge, we introduce PalmX 2025, the first shared task designed to benchmark the cultural competence of LLMs in these specific domains. The task is composed of two subtasks featuring multiple-choice questions (MCQs) in Modern Standard Arabic (MSA): General Arabic Culture and General Islamic Culture. These subtasks cover a wide range of topics, including traditions, food, history, religious practices, and language expressions from across 22 Arab countries. The initiative drew considerable interest, with 26 teams registering for Subtask 1 and 19 for Subtask 2, culminating in nine and six valid submissions, respectively. Our findings reveal that task-specific fine-tuning substantially boosts performance over baseline models. The top-performing systems achieved an accuracy of 72.15% on cultural questions and 84.22% on Islamic knowledge. Parameter-efficient fine-tuning emerged as the predominant and most effective approach among participants, while the utility of data augmentation was found to be domain-dependent.