Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task
作者: Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada
分类: cs.CL
发布日期: 2026-03-06
备注: To appear in the Proceedings of EACL 2026
💡 一句话要点
提出蕴含义务情态的Wason选择任务数据集,评估大语言模型在义务条件推理中的表现。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 条件推理 义务情态 Wason选择任务 确认偏差 匹配偏差 领域特异性 规范推理
📋 核心要点
- 现有研究对大语言模型推理能力的领域特异性探索不足,尤其是在义务规则等规范语境下。
- 论文核心在于构建蕴含义务情态的Wason选择任务数据集,用于区分义务条件和描述性条件,评估LLM的条件推理能力。
- 实验结果表明,LLM在义务规则下表现更好,且存在类似人类的匹配偏差,表明其推理性能受规则类型影响。
📝 摘要(中文)
随着大型语言模型(LLMs)在语言能力上的进步,它们的推理能力正受到越来越多的关注。在人类中,推理在特定领域表现良好,尤其是在规范而非纯粹形式的语境中。尽管之前的研究已经比较了LLM和人类的推理,但LLM推理的领域特异性仍未得到充分探索。在本研究中,我们引入了一个新的Wason选择任务数据集,该数据集显式地编码了义务情态,以系统地区分义务条件和描述性条件,并使用它来检验LLM在义务规则下的条件推理。我们进一步分析了观察到的错误模式是否能更好地用确认偏差(一种寻求支持规则的证据的倾向)或匹配偏差(一种忽略否定并选择与规则的词汇元素匹配的项目的倾向)来解释。结果表明,与人类一样,LLM在义务规则下推理得更好,并表现出类似匹配偏差的错误。总之,这些发现表明,LLM的性能在规则类型之间系统地变化,并且它们的错误模式可以很好地与该范式中著名的人类偏差相提并论。
🔬 方法详解
问题定义:论文旨在解决大语言模型在义务条件推理方面的能力评估问题。现有方法缺乏对LLM推理能力领域特异性的深入研究,尤其是在涉及义务规则等规范性语境下,难以区分LLM在不同类型规则下的推理表现差异。Wason选择任务是心理学中经典的条件推理测试,但现有数据集缺乏对义务情态的显式编码,无法有效评估LLM在义务规则下的推理能力。
核心思路:论文的核心思路是构建一个显式编码义务情态的Wason选择任务数据集,通过该数据集系统地区分义务条件和描述性条件,从而更准确地评估LLM在义务规则下的条件推理能力。通过分析LLM在不同类型规则下的推理表现和错误模式,揭示其推理能力的领域特异性,并与人类的推理偏差进行对比。
技术框架:论文的技术框架主要包括以下几个部分:1)构建新的Wason选择任务数据集,该数据集显式地编码了义务情态,区分了义务条件和描述性条件。2)使用该数据集对LLM进行评估,测试其在不同类型规则下的条件推理能力。3)分析LLM的错误模式,判断其是否受到确认偏差或匹配偏差的影响。4)将LLM的推理表现和错误模式与人类的推理表现和错误模式进行对比。
关键创新:论文的关键创新在于构建了一个新的、显式编码义务情态的Wason选择任务数据集。该数据集能够系统地区分义务条件和描述性条件,为评估LLM在义务规则下的条件推理能力提供了新的工具。与现有数据集相比,该数据集更具针对性,能够更准确地评估LLM在特定领域的推理能力。
关键设计:数据集的关键设计在于对义务情态的显式编码。具体来说,数据集中的规则被设计成两种类型:义务条件(例如,“如果一个人喝酒,那么他必须年满18岁”)和描述性条件(例如,“如果一个人喝酒,那么他会感到快乐”)。这种设计使得研究人员能够区分LLM在不同类型规则下的推理表现,并分析其错误模式。
📊 实验亮点
实验结果表明,与人类相似,LLM在义务规则下推理表现优于描述性规则。同时,LLM也表现出类似人类的匹配偏差,即倾向于选择与规则词汇匹配的选项,而忽略否定词。这些发现揭示了LLM推理能力的领域特异性,并为理解LLM的推理偏差提供了新的视角。
🎯 应用场景
该研究成果可应用于评估和提升大语言模型在法律、伦理等规范性领域的推理能力。通过更好地理解LLM在义务规则下的推理偏差,可以开发更可靠、更符合伦理规范的AI系统,例如智能法律助手、伦理风险评估工具等,从而促进AI技术在社会关键领域的负责任应用。
📄 摘要(原文)
As large language models (LLMs) advance in linguistic competence, their reasoning abilities are gaining increasing attention. In humans, reasoning often performs well in domain specific settings, particularly in normative rather than purely formal contexts. Although prior studies have compared LLM and human reasoning, the domain specificity of LLM reasoning remains underexplored. In this study, we introduce a new Wason Selection Task dataset that explicitly encodes deontic modality to systematically distinguish deontic from descriptive conditionals, and use it to examine LLMs' conditional reasoning under deontic rules. We further analyze whether observed error patterns are better explained by confirmation bias (a tendency to seek rule-supporting evidence) or by matching bias (a tendency to ignore negation and select items that lexically match elements of the rule). Results show that, like humans, LLMs reason better with deontic rules and display matching-bias-like errors. Together, these findings suggest that the performance of LLMs varies systematically across rule types and that their error patterns can parallel well-known human biases in this paradigm.