A Japanese Benchmark for Evaluating Social Bias in Reasoning Based on Attribution Theory

📄 arXiv: 2604.00568v1 📥 PDF

作者: Taihei Shiotani, Masahiro Kaneko, Naoaki Okazaki

分类: cs.CL

发布日期: 2026-04-01


💡 一句话要点

提出JUBAKU-v2:一个基于归因理论的日语推理社会偏见评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社会偏见 归因理论 日语评测基准 大型语言模型 推理评估

📋 核心要点

  1. 现有日语偏见评测基准主要依赖翻译英语数据,未能充分反映日本文化特有的社会偏见。
  2. JUBAKU-v2基于归因理论,通过固定结论来评估推理过程中对内群体和外群体的归因偏见。
  3. 实验表明,JUBAKU-v2能更敏感地检测不同模型在社会偏见方面的性能差异。

📝 摘要(中文)

为了提升大型语言模型(LLMs)的公平性,评估特定语言区域文化背景下的社会偏见至关重要。然而,现有的日语评测基准大多依赖于翻译英语数据,这不一定适用于日本文化。此外,它们仅评估结论中的偏见,而忽略了推理过程中潜在的偏见。本研究基于社会心理学中的归因理论,构建了一个新的数据集“JUBAKU-v2”,它通过固定结论来评估推理过程中将行为归因于内群体和外群体的偏见。该数据集包含216个反映日本特有文化偏见的例子。实验结果验证了它比现有基准更能敏感地检测不同模型之间的性能差异。

🔬 方法详解

问题定义:现有日语社会偏见评测基准主要存在两个痛点:一是过度依赖英文数据集的翻译,无法准确捕捉日本文化语境下的社会偏见;二是仅关注结论中的偏见,忽略了推理过程中潜在的偏见,例如对行为原因的归因方式可能存在偏见。

核心思路:论文的核心思路是基于社会心理学中的归因理论,构建一个专门针对日语文化背景的社会偏见评测数据集。该数据集的设计重点在于评估模型在推理过程中,对内群体和外群体行为原因的归因偏见,同时控制结论的一致性,从而更精确地衡量模型的偏见程度。

技术框架:JUBAKU-v2数据集的构建流程主要包括以下几个阶段: 1. 偏见场景设计:基于日本文化中常见的社会偏见现象,设计一系列包含内群体和外群体的行为场景。 2. 问题生成:针对每个场景,生成多个问题,这些问题关注行为的原因归属,例如“这个行为是由于个人原因还是环境原因造成的?”。 3. 结论固定:确保所有问题的结论保持一致,例如都指向相同的行为结果,从而排除结论偏见的影响。 4. 数据标注:由多位日语母语者对问题进行标注,评估其偏见程度和合理性。 5. 数据验证:对标注数据进行验证和清洗,确保数据集的质量和一致性。

关键创新:JUBAKU-v2的关键创新在于: 1. 文化针对性:数据集专门针对日本文化背景设计,能够更准确地评估模型在日语语境下的社会偏见。 2. 推理过程偏见评估:数据集关注推理过程中的归因偏见,而不仅仅是结论偏见,能够更全面地评估模型的偏见程度。 3. 结论固定:通过固定结论,排除结论偏见的影响,从而更精确地衡量归因偏见。

关键设计:JUBAKU-v2数据集包含216个例子,每个例子都包含一个场景描述、一个问题以及一个固定的结论。问题的设计围绕着行为的归因展开,例如,询问行为是由于个人能力、努力程度、环境因素还是其他原因造成的。数据集的标注由多位日语母语者完成,标注者需要评估问题中是否存在对内群体或外群体的偏见。具体的技术细节,例如损失函数和网络结构,取决于使用该数据集进行评估的具体模型。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,JUBAKU-v2数据集能够更敏感地检测不同模型之间的性能差异,尤其是在社会偏见方面。相较于现有的日语偏见评测基准,JUBAKU-v2能够更有效地识别模型在推理过程中存在的归因偏见。具体的性能数据和提升幅度需要在论文中查找。

🎯 应用场景

JUBAKU-v2数据集可用于评估和改进日语大型语言模型(LLMs)的公平性,尤其是在涉及社会推理和决策的场景中。通过使用该数据集,开发者可以识别并减轻模型中存在的文化偏见,从而提高模型在实际应用中的可靠性和公正性。该研究对于开发更负责任和符合伦理道德的人工智能系统具有重要意义。

📄 摘要(原文)

In enhancing the fairness of Large Language Models (LLMs), evaluating social biases rooted in the cultural contexts of specific linguistic regions is essential. However, most existing Japanese benchmarks heavily rely on translating English data, which does not necessarily provide an evaluation suitable for Japanese culture. Furthermore, they only evaluate bias in the conclusion, failing to capture biases lurking in the reasoning. In this study, based on attribution theory in social psychology, we constructed a new dataset, ``JUBAKU-v2,'' which evaluates the bias in attributing behaviors to in-groups and out-groups within reasoning while fixing the conclusion. This dataset consists of 216 examples reflecting cultural biases specific to Japan. Experimental results verified that it can detect performance differences across models more sensitively than existing benchmarks.