Can LLMs Solve My Grandma's Riddle? Evaluating Multilingual Large Language Models on Reasoning Traditional Bangla Tricky Riddles

作者: Nurul Labib Sayeedi, Md. Faiyaz Abdullah Sayeedi, Khushnur Binte Jahangir, Swakkhar Shatabda, Sarah Masud Preum

分类: cs.CL

发布日期: 2025-12-23

🔗 代码/项目: GITHUB

💡 一句话要点

BanglaRiddleEval：评估多语言大模型在孟加拉语谜语推理上的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 孟加拉语 谜语推理 低资源语言 基准测试

📋 核心要点

现有LLM在形象化、文化背景和低资源语言环境下的推理能力有待提升，尤其是在孟加拉语等低资源语言中。
论文构建了BanglaRiddleEval基准，包含孟加拉语传统谜语，用于评估LLM在推理、歧义消解等方面的能力。
实验结果表明，现有LLM在孟加拉语谜语推理方面与人类水平存在差距，为未来研究提供了挑战。

📝 摘要（中文）

大型语言模型（LLMs）在许多NLP基准测试中表现出令人印象深刻的性能，但它们在形象化、具有文化基础和低资源环境中的推理能力仍未得到充分探索。本文通过引入BanglaRiddleEval来解决孟加拉语的这一差距，BanglaRiddleEval是一个包含1,244个传统孟加拉语谜语的基准，这些谜语被实例化为四个任务（总共4,976个谜语-任务组合）。使用基于LLM的pipeline，我们生成了思维链解释、语义连贯的干扰项和细粒度的歧义注释，并在不同的prompt策略下评估了一系列开源和闭源模型。模型在生成式问答中实现了适度的语义重叠，但正确率较低；多项选择题的准确率峰值仅为约56%，而人类基线为83%；歧义消解的范围从大约26%到68%，高质量的解释仅限于最强的模型。这些结果表明，当前的LLM捕获了一些孟加拉语谜语推理所需的线索，但与人类水平的性能相差甚远，从而将BanglaRiddleEval确立为一个具有挑战性的低资源形象推理新基准。所有数据、代码和评估脚本都可以在GitHub上找到：https://github.com/Labib1610/BanglaRiddleEval。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在理解和解决传统孟加拉语谜语方面的能力。现有方法在低资源、文化相关的语言推理方面存在不足，无法充分捕捉谜语中的隐喻、歧义和文化背景。这导致LLMs在处理此类任务时表现不佳，缺乏有效的评估基准。

核心思路：论文的核心思路是构建一个专门针对孟加拉语谜语的评估基准（BanglaRiddleEval），并利用该基准来系统地评估各种LLMs的推理能力。通过分析LLMs在不同任务上的表现，揭示其在处理低资源、形象化语言推理方面的局限性，并为未来的研究提供方向。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 数据集构建：收集并整理1244个传统孟加拉语谜语，并将其转化为四个不同的任务（如生成式问答、多项选择题、歧义消解等）。2) 数据增强：利用LLM生成思维链解释、语义连贯的干扰项和细粒度的歧义注释，以扩充数据集。3) 模型评估：选择一系列开源和闭源LLMs，并在BanglaRiddleEval基准上进行评估，采用不同的prompt策略。4) 结果分析：分析LLMs在不同任务上的表现，并与人类基线进行比较，以评估其推理能力。

关键创新：该论文的关键创新在于：1) 提出了BanglaRiddleEval，这是一个专门针对孟加拉语谜语推理的基准，填补了低资源语言推理评估的空白。2) 利用LLM生成思维链解释和歧义注释，为谜语推理提供了更丰富的上下文信息。3) 系统地评估了各种LLMs在孟加拉语谜语推理上的表现，揭示了其在处理低资源、形象化语言推理方面的局限性。

关键设计：在数据集构建方面，论文将每个谜语转化为四个任务：生成式问答（Generative QA）、多项选择题（MCQ）、歧义消解（Ambiguity Resolution）和解释生成（Explanation Generation）。在模型评估方面，采用了不同的prompt策略，例如zero-shot、few-shot和chain-of-thought prompting。评估指标包括生成式问答的语义重叠度、多项选择题的准确率和歧义消解的准确率。

📊 实验亮点

实验结果表明，现有LLM在BanglaRiddleEval基准上的表现远低于人类水平。多项选择题的准确率峰值仅为56%，而人类基线为83%。歧义消解的准确率范围为26%至68%。这些结果表明，LLM虽然能捕捉到一些线索，但在孟加拉语谜语推理方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于提升LLM在低资源语言和文化背景下的推理能力，例如：开发更智能的孟加拉语聊天机器人、教育辅助工具和文化遗产保护应用。此外，BanglaRiddleEval基准可以促进对LLM在形象化语言理解方面的研究，并推动相关技术的进步。

📄 摘要（原文）

Large Language Models (LLMs) show impressive performance on many NLP benchmarks, yet their ability to reason in figurative, culturally grounded, and low-resource settings remains underexplored. We address this gap for Bangla by introducing BanglaRiddleEval, a benchmark of 1,244 traditional Bangla riddles instantiated across four tasks (4,976 riddle-task artifacts in total). Using an LLM-based pipeline, we generate Chain-of-Thought explanations, semantically coherent distractors, and fine-grained ambiguity annotations, and evaluate a diverse suite of open-source and closed-source models under different prompting strategies. Models achieve moderate semantic overlap on generative QA but low correctness, MCQ accuracy peaks at only about 56% versus an 83% human baseline, and ambiguity resolution ranges from roughly 26% to 68%, with high-quality explanations confined to the strongest models. These results show that current LLMs capture some cues needed for Bangla riddle reasoning but remain far from human-level performance, establishing BanglaRiddleEval as a challenging new benchmark for low-resource figurative reasoning. All data, code, and evaluation scripts are available on GitHub: https://github.com/Labib1610/BanglaRiddleEval.

Can LLMs Solve My Grandma's Riddle? Evaluating Multilingual Large Language Models on Reasoning Traditional Bangla Tricky Riddles

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册