Generative Value Conflicts Reveal LLM Priorities

📄 arXiv: 2509.25369v1 📥 PDF

作者: Andy Liu, Kshitish Ghate, Mona Diab, Daniel Fried, Atoosa Kasirzadeh, Max Kleiman-Weiner

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-29


💡 一句话要点

ConflictScope:揭示LLM在价值冲突下的优先级偏好

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 价值对齐 价值冲突 伦理安全 系统提示

📋 核心要点

  1. 现有LLM对齐方法缺乏对价值冲突场景的有效处理,导致模型在实际应用中难以做出符合预期的权衡。
  2. ConflictScope通过自动生成价值冲突场景,并分析LLM的响应,从而揭示模型在不同价值之间的优先级排序。
  3. 实验表明,开放式评估会使模型偏向个人价值,但通过系统提示可以显著改善模型在价值冲突下的对齐效果。

📝 摘要(中文)

现有工作致力于使基于大型语言模型(LLM)的助手与目标价值集合对齐,但这些助手在部署时经常需要在不同价值之间进行权衡。针对现有对齐数据集中价值冲突稀缺的问题,我们引入了ConflictScope,一个自动化的流程,用于评估LLM如何对不同的价值进行优先级排序。给定一个用户定义的价值集合,ConflictScope自动生成语言模型面临两个价值冲突的场景。然后,它使用LLM编写的“用户提示”来提示目标模型,并评估它们的自由文本响应,以引出价值集合中的价值排序。通过比较多项选择和开放式评估的结果,我们发现模型在更开放的价值冲突环境中,会从支持保护性价值(如无害性)转向支持个人价值(如用户自主性)。然而,在模型的系统提示中包含详细的价值排序,可以将与目标排序的对齐提高14%,表明系统提示可以在价值冲突下适度成功地对齐LLM行为。我们的工作证明了评估模型中价值优先级的重要性,并为该领域的未来工作奠定了基础。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)对齐研究主要关注于将模型与一组预定义的目标价值对齐。然而,在实际应用中,LLM经常面临不同价值之间的冲突,例如用户自主性与模型的无害性。现有的对齐数据集缺乏足够的价值冲突场景,导致模型在这些场景下的行为难以预测和控制。因此,如何评估和改善LLM在价值冲突下的价值优先级排序成为了一个重要的研究问题。

核心思路:本研究的核心思路是构建一个自动化的流程,用于生成价值冲突场景,并分析LLM在这些场景下的响应,从而揭示模型在不同价值之间的优先级排序。通过分析模型的响应,可以了解模型在面临价值冲突时更倾向于哪个价值,从而评估模型的价值对齐程度。此外,研究还探索了通过系统提示来引导模型在价值冲突下做出更符合预期的决策。

技术框架:ConflictScope包含以下主要模块:1) 价值集合定义:用户定义一组需要评估的价值,例如“用户自主性”、“无害性”等。2) 冲突场景生成:自动生成LLM面临两个价值冲突的场景。这些场景通过LLM编写的“用户提示”来呈现。3) 模型响应生成:使用目标LLM对生成的冲突场景进行响应。4) 价值排序评估:分析LLM的自由文本响应,提取模型在不同价值之间的优先级排序。研究比较了多项选择和开放式评估两种方式。

关键创新:本研究的关键创新在于提出了ConflictScope,一个自动化的价值冲突场景生成和评估流程。该流程能够有效地揭示LLM在价值冲突下的价值优先级偏好,并为改善模型的价值对齐提供指导。与现有方法相比,ConflictScope能够更全面地评估模型在复杂场景下的行为,并发现模型潜在的价值偏差。

关键设计:在系统提示方面,研究探索了在系统提示中包含详细的价值排序信息,以引导模型在价值冲突下做出更符合预期的决策。具体来说,研究人员在系统提示中明确指定了不同价值之间的优先级关系,例如“无害性 > 用户自主性”。通过这种方式,研究人员试图影响模型在价值冲突下的决策,使其更倾向于优先级更高的价值。研究还比较了不同评估方式(多项选择 vs. 开放式)对模型价值优先级的影响。

📊 实验亮点

实验结果表明,在开放式评估中,LLM更倾向于支持个人价值(如用户自主性),而忽略保护性价值(如无害性)。然而,通过在系统提示中包含详细的价值排序信息,可以将模型与目标排序的对齐程度提高14%。这表明系统提示是一种有效的价值对齐方法,但仍有提升空间。

🎯 应用场景

该研究成果可应用于提升LLM在实际应用中的安全性与可靠性,例如在医疗、金融等高风险领域,确保LLM在面临伦理困境时能够做出符合伦理规范的决策。此外,该方法还可用于评估和比较不同LLM的价值对齐程度,为用户选择合适的LLM提供参考。

📄 摘要(原文)

Past work seeks to align large language model (LLM)-based assistants with a target set of values, but such assistants are frequently forced to make tradeoffs between values when deployed. In response to the scarcity of value conflict in existing alignment datasets, we introduce ConflictScope, an automatic pipeline to evaluate how LLMs prioritize different values. Given a user-defined value set, ConflictScope automatically generates scenarios in which a language model faces a conflict between two values sampled from the set. It then prompts target models with an LLM-written "user prompt" and evaluates their free-text responses to elicit a ranking over values in the value set. Comparing results between multiple-choice and open-ended evaluations, we find that models shift away from supporting protective values, such as harmlessness, and toward supporting personal values, such as user autonomy, in more open-ended value conflict settings. However, including detailed value orderings in models' system prompts improves alignment with a target ranking by 14%, showing that system prompting can achieve moderate success at aligning LLM behavior under value conflict. Our work demonstrates the importance of evaluating value prioritization in models and provides a foundation for future work in this area.