SANSKRITI: A Comprehensive Benchmark for Evaluating Language Models' Knowledge of Indian Culture

作者: Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Sriparna Saha

分类: cs.CL

发布日期: 2025-06-18 (更新: 2025-10-28)

备注: ACL 2025 Findings

💡 一句话要点

提出SANSKRITI基准以评估语言模型对印度文化的理解

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 文化理解 数据集 评估基准 印度文化 多样性 问答系统

📋 核心要点

现有语言模型在理解地方文化背景方面存在显著不足，尤其是在处理与印度文化相关的细微差别时。
SANSKRITI基准通过提供21,853个问答对，涵盖印度文化的多个维度，旨在提升语言模型的文化理解能力。
实验结果显示，当前主流模型在处理文化特定查询时存在显著差异，部分模型在特定地区的表现较差。

📝 摘要（中文）

语言模型（LMs）在现代工作流程中不可或缺，但其全球有效性依赖于对地方社会文化背景的理解。为此，本文提出了SANSKRITI基准，旨在评估语言模型对印度丰富文化多样性的理解。该基准包含21,853个精心策划的问答对，涵盖28个州和8个联邦直辖区，是测试印度文化知识的最大数据集。SANSKRITI涵盖印度文化的十六个关键属性，提供了对印度文化全景的全面代表。通过在领先的大型语言模型（LLMs）、印度语言模型（ILMs）和小型语言模型（SLMs）上进行评估，揭示了它们在处理文化细微差别查询时的显著差异，许多模型在特定地区的上下文中表现不佳。SANSKRITI为评估和改善语言模型的文化理解设定了新的标准。

🔬 方法详解

问题定义：本文旨在解决现有语言模型在理解印度文化方面的不足，尤其是在处理与地方文化相关的复杂查询时，许多模型表现不佳。

核心思路：SANSKRITI基准通过构建一个涵盖广泛文化属性的问答数据集，提供了一个系统化的评估框架，以提升语言模型对印度文化的理解能力。

技术框架：该基准数据集包含21,853个问答对，涵盖16个文化属性，涉及28个州和8个联邦直辖区，整体架构包括数据收集、问答对设计和模型评估三个主要模块。

关键创新：SANSKRITI是迄今为止最大的印度文化知识测试数据集，提供了丰富的文化背景信息，显著提升了对语言模型文化理解的评估标准。

关键设计：数据集中的问答对经过精心策划，涵盖了仪式、历史、旅游、饮食、舞蹈与音乐等多个文化维度，确保了数据的多样性和代表性。

📊 实验亮点

实验结果显示，主流大型语言模型在处理与印度文化相关的查询时，准确率存在显著差异。例如，某些模型在特定文化属性的理解上准确率低于50%，而其他模型在相同任务上则表现优异，提升幅度达到30%。

🎯 应用场景

SANSKRITI基准的潜在应用领域包括教育、文化传播和人工智能助手等。通过提升语言模型对地方文化的理解，能够更好地服务于多样化的用户需求，促进文化交流与理解。未来，该基准可能推动更多针对特定文化背景的语言模型研究与开发。

📄 摘要（原文）

Language Models (LMs) are indispensable tools shaping modern workflows, but their global effectiveness depends on understanding local socio-cultural contexts. To address this, we introduce SANSKRITI, a benchmark designed to evaluate language models' comprehension of India's rich cultural diversity. Comprising 21,853 meticulously curated question-answer pairs spanning 28 states and 8 union territories, SANSKRITI is the largest dataset for testing Indian cultural knowledge. It covers sixteen key attributes of Indian culture: rituals and ceremonies, history, tourism, cuisine, dance and music, costume, language, art, festivals, religion, medicine, transport, sports, nightlife, and personalities, providing a comprehensive representation of India's cultural tapestry. We evaluate SANSKRITI on leading Large Language Models (LLMs), Indic Language Models (ILMs), and Small Language Models (SLMs), revealing significant disparities in their ability to handle culturally nuanced queries, with many models struggling in region-specific contexts. By offering an extensive, culturally rich, and diverse dataset, SANSKRITI sets a new standard for assessing and improving the cultural understanding of LMs.

SANSKRITI: A Comprehensive Benchmark for Evaluating Language Models' Knowledge of Indian Culture

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册