The Fragility Of Moral Judgment In Large Language Models
作者: Tom van Nuenen, Pratik S. Sachdeva
分类: cs.CL, cs.AI, cs.HC
发布日期: 2026-03-05
备注: 22 pages, 7 figures, 10 tables, plus appendices
💡 一句话要点
揭示大语言模型道德判断的脆弱性:叙事形式和任务设计显著影响判断结果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 道德判断 脆弱性 叙事视角 任务设计 可操纵性 公平性 可重复性
📋 核心要点
- 大型语言模型被广泛用于道德和人际指导,但其判断易受叙事方式影响,缺乏对潜在道德冲突的深入分析。
- 该研究通过扰动道德困境的叙事方式和评估协议,系统性地测试了LLM道德判断的稳定性和可操纵性。
- 实验表明,LLM的道德判断高度依赖于叙事视角和任务设计,而非道德问题的本质,引发了公平性和可重复性问题。
📝 摘要(中文)
本文研究了大型语言模型(LLMs)在道德判断方面的稳定性和可操纵性。作者设计了一个扰动框架,通过对来自r/AmItheAsshole论坛的2939个道德困境进行内容扰动(包括表面编辑、视角转换和说服提示)以及改变评估协议(输出排序、指令位置和非结构化提示),来测试LLMs在面对相同道德冲突时的判断一致性。实验评估了GPT-4.1、Claude 3.7 Sonnet、DeepSeek V3和Qwen2.5-72B四个模型(共计129,156个判断)。结果表明,表面扰动影响较小(7.5%的翻转率),而视角转换导致更高的不稳定性(24.3%)。说服提示会产生系统性的方向性变化。协议选择是主导因素,结构化协议之间的一致性仅为67.6%(kappa=0.55),只有35.7%的模型-场景单元在所有三个协议中匹配。研究表明,LLM的道德判断受到叙事形式和任务设计的共同影响,这引发了对结果可重复性和公平性的担忧。
🔬 方法详解
问题定义:当前大型语言模型在道德判断方面存在脆弱性,其判断结果容易受到叙事方式和任务设计的影响,而非基于对道德困境本身的深刻理解。现有方法缺乏对这种脆弱性的系统性评估和量化,使得LLM在道德推理方面的应用存在潜在风险。
核心思路:该研究的核心思路是通过引入一系列扰动,包括内容扰动(表面编辑、视角转换、说服提示)和评估协议扰动(输出排序、指令位置、非结构化提示),来测试LLM在面对相同道德冲突时的判断一致性。通过分析不同扰动对LLM判断的影响,揭示其道德判断的脆弱性来源。
技术框架:该研究的技术框架主要包括以下几个阶段:1. 数据收集:从r/AmItheAsshole论坛收集道德困境数据。2. 扰动生成:对原始数据进行内容扰动(表面编辑、视角转换、说服提示)。3. 评估协议设计:设计不同的评估协议(输出排序、指令位置、非结构化提示)。4. 模型评估:使用不同的LLM(GPT-4.1、Claude 3.7 Sonnet、DeepSeek V3、Qwen2.5-72B)对扰动后的数据进行道德判断。5. 结果分析:分析不同扰动和评估协议对LLM判断的影响,量化其道德判断的脆弱性。
关键创新:该研究的关键创新在于:1. 提出了一个系统的扰动框架,用于评估LLM道德判断的稳定性和可操纵性。2. 区分了不同类型的扰动(内容扰动和评估协议扰动),并分析了它们对LLM判断的不同影响。3. 揭示了LLM道德判断对叙事视角和任务设计的依赖性,强调了在道德推理应用中需要关注公平性和可重复性问题。
关键设计:内容扰动包括:表面编辑(词汇/结构噪声)、视角转换(声音和立场中立化)和说服提示(自我定位、社会证明、模式承认、受害者框架)。评估协议扰动包括:输出排序、指令位置和非结构化提示。研究中使用了多个LLM,并对每个模型-场景单元进行了多次评估,以确保结果的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,表面扰动对LLM道德判断的影响较小(翻转率7.5%),而视角转换导致更高的不稳定性(24.3%)。结构化协议之间的一致性仅为67.6%(kappa=0.55),只有35.7%的模型-场景单元在所有三个协议中匹配。这些数据突显了LLM道德判断的脆弱性,以及叙事形式和任务设计对判断结果的显著影响。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型在道德推理方面的能力,提高其在道德敏感场景中的可靠性和公平性。例如,在法律咨询、心理辅导等领域,可以利用该研究的扰动框架来测试和优化LLM的道德判断能力,避免因叙事方式或任务设计而产生偏差。
📄 摘要(原文)
People increasingly use large language models (LLMs) for everyday moral and interpersonal guidance, yet these systems cannot interrogate missing context and judge dilemmas as presented. We introduce a perturbation framework for testing the stability and manipulability of LLM moral judgments while holding the underlying moral conflict constant. Using 2,939 dilemmas from r/AmItheAsshole (January-March 2025), we generate three families of content perturbations: surface edits (lexical/structural noise), point-of-view shifts (voice and stance neutralization), and persuasion cues (self-positioning, social proof, pattern admissions, victim framing). We also vary the evaluation protocol (output ordering, instruction placement, and unstructured prompting). We evaluated all variants with four models (GPT-4.1, Claude 3.7 Sonnet, DeepSeek V3, Qwen2.5-72B) (N=129,156 judgments). Surface perturbations produce low flip rates (7.5%), largely within the self-consistency noise floor (4-13%), whereas point-of-view shifts induce substantially higher instability (24.3%). A large subset of dilemmas (37.9%) is robust to surface noise yet flips under perspective changes, indicating that models condition on narrative voice as a pragmatic cue. Instability concentrates in morally ambiguous cases; scenarios where no party is assigned blame are most susceptible. Persuasion perturbations yield systematic directional shifts. Protocol choices dominate all other factors: agreement between structured protocols is only 67.6% (kappa=0.55), and only 35.7% of model-scenario units match across all three protocols. These results show that LLM moral judgments are co-produced by narrative form and task scaffolding, raising reproducibility and equity concerns when outcomes depend on presentation skill rather than moral substance.