MATA (māta): Mindful Assessment of the Telugu Abilities of Large Language Models
作者: Chalamalasetti Kranti, Sowmya Vajjala
分类: cs.CL
发布日期: 2025-08-19
备注: Pre-print
💡 一句话要点
提出MATA评估数据集以评估大型语言模型的泰卢固语能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 泰卢固语 评估数据集 自然语言处理 低资源语言 模型评估 语言能力
📋 核心要点
- 现有大型语言模型在低资源语言(如泰卢固语)中的评估方法不足,缺乏系统性和细致性。
- 论文提出MATA数据集,包含多样化的评估问题,旨在全面评估大型语言模型的语言能力。
- 实验结果显示,模型在多项选择题中依赖表面特征,且与人类评估相比,模型评估的可靠性存在差异。
📝 摘要(中文)
本文介绍了MATA,一个新颖的评估数据集,用于评估大型语言模型在泰卢固语中的能力。该数据集包含729个精心策划的多项选择题和开放式问题,涵盖多种语言维度。我们对11个开放权重和闭源的语言模型进行了评估,并对其性能进行了细致分析。此外,我们实证展示了大型语言模型在多项选择题中如何依赖于表面启发式,如答案位置和干扰项模式。最后,我们将大型语言模型作为评估者的结果与人类评估进行了比较,并对其在低资源语言中的可靠性得出了一些结论。我们认为,这种细致的评估对于理解模型的局限性至关重要,并可以为开发更具语言能力的大型语言模型提供指导,同时也为未来的泰卢固自然语言处理研究奠定基础。
🔬 方法详解
问题定义:本研究旨在解决现有大型语言模型在泰卢固语能力评估中的不足,尤其是在低资源语言环境下的评估方法缺乏系统性和细致性的问题。
核心思路:论文通过构建MATA数据集,提供729个多项选择和开放式问题,涵盖多种语言维度,从而实现对大型语言模型的全面评估。
技术框架:整体架构包括数据集构建、模型评估和结果分析三个主要模块。数据集通过多样化问题设计,确保评估的全面性;模型评估则涵盖11个不同的语言模型;结果分析则对模型表现进行细致剖析。
关键创新:MATA数据集的构建是本研究的核心创新,提供了一个系统化的评估框架,能够揭示模型在低资源语言中的表现和局限性,与现有方法相比,提供了更为细致的评估视角。
关键设计:在数据集构建中,问题设计考虑了语言的多样性和复杂性,确保问题的代表性和挑战性。评估过程中,采用了多种评估指标,以便全面反映模型的性能。
📊 实验亮点
实验结果显示,11个评估的语言模型在多项选择题中普遍依赖于表面特征,且与人类评估相比,模型的评估结果存在显著差异。这表明,MATA数据集能够有效揭示模型的局限性,并为未来的研究提供重要参考。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、教育技术和语言资源开发。MATA数据集的构建不仅为评估大型语言模型在泰卢固语中的能力提供了基础,也为其他低资源语言的研究提供了借鉴,推动了多语言处理技术的发展。
📄 摘要(原文)
In this paper, we introduce MATA, a novel evaluation dataset to assess the ability of Large Language Models (LLMs) in Telugu language, comprising 729 carefully curated multiple-choice and open-ended questions that span diverse linguistic dimensions. We evaluate 11 open-weight and closed-source LLMs on our dataset and present a fine-grained analysis of their performance. Further, we empirically show how LLMs rely on superficial heuristics such as answer position and distractor patterns for multiple-choice questions. Finally, we also compare LLM-as-a-judge evaluation with human evaluation for open-ended questions and draw some conclusions on its reliability in a low-resource language. We argue that such fine-grained evaluation is essential for understanding model limitations and can inform the development of more linguistically capable LLMs, while also serving as a foundation for future research in Telugu NLP.