Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in LLMs
作者: Jongwook Han, Jongwon Lim, Injin Kong, Yohan Jo
分类: cs.CL, cs.AI
发布日期: 2025-09-29 (更新: 2025-12-09)
💡 一句话要点
揭示LLM中内在与提示价值观表达的双重机制,并分析其差异性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 价值观对齐 提示工程 内在价值观 提示价值观 价值向量 价值神经元 机制分析
📋 核心要点
- 现有研究对LLM内在价值观和提示价值观的机制理解不足,二者关系尚不明确。
- 论文通过提取价值向量和识别价值神经元,从机制层面分析了两种价值观表达方式。
- 实验表明,两种机制共享部分组件,但也存在独特元素,导致不同的可操纵性和多样性。
📝 摘要(中文)
大型语言模型(LLMs)可以通过两种不同的方式表达价值观:(1)内在表达,反映模型在训练过程中学习到的固有价值观;(2)提示表达,由显式提示引发。鉴于它们在价值观对齐和角色引导中的广泛应用,清晰地理解其底层机制至关重要,特别是它们是否主要重叠(正如人们可能预期的那样)或依赖于截然不同的机制,但这一点在很大程度上仍未得到充分研究。我们使用两种方法在机制层面分析了这一点:(1)价值向量,表示从残差流中提取的价值机制的特征方向;(2)价值神经元,有助于价值表达的MLP神经元。我们证明了内在和提示价值机制部分共享对于诱导价值表达至关重要的共同组成部分,但也具有以不同方式表现出来的独特元素。因此,这些机制导致不同程度的价值可操纵性(提示 > 内在)和响应多样性(内在 > 提示)。特别是,内在机制独有的组件似乎促进了响应中的词汇多样性,而提示机制特有的组件主要加强了指令遵循,即使在像越狱这样的遥远任务中也能生效。
🔬 方法详解
问题定义:大型语言模型在价值观对齐和角色引导中被广泛应用,理解其价值观表达机制至关重要。然而,现有研究对LLM内在价值观(模型训练中学习到的)和提示价值观(由提示引发的)之间的关系和差异性理解不足,不清楚它们是重叠的还是依赖于不同的机制。这限制了我们对LLM行为的控制和预测能力。
核心思路:论文的核心思路是通过解剖LLM的内部机制,具体来说是残差流和MLP神经元,来理解内在价值观和提示价值观的表达方式。通过识别和分析与这两种价值观相关的特征方向(价值向量)和神经元(价值神经元),揭示它们之间的共性和差异,从而更好地理解和控制LLM的价值观表达。
技术框架:论文采用两种主要的技术方法:1) 价值向量提取:从LLM的残差流中提取代表价值机制的特征方向,这些方向被称为价值向量。通过分析这些向量,可以了解不同价值观在模型内部的表示方式。2) 价值神经元识别:识别对价值表达有贡献的MLP神经元。通过分析这些神经元的激活模式,可以了解不同价值观是如何被处理和表达的。整体流程包括:首先,收集数据并定义需要研究的价值观;然后,使用特定的技术手段(如主成分分析、线性探针等)提取价值向量和识别价值神经元;最后,分析这些向量和神经元的特性,比较内在价值观和提示价值观之间的差异。
关键创新:论文的关键创新在于从机制层面,通过价值向量和价值神经元,深入分析了LLM中内在价值观和提示价值观的表达方式。以往的研究主要关注于从外部观察LLM的行为,而该论文则深入到模型内部,揭示了价值观表达的底层机制。此外,论文还发现,内在价值观和提示价值观虽然共享部分组件,但也存在独特的元素,这些元素导致了不同的可操纵性和多样性。
关键设计:论文的关键设计包括:1) 使用残差流作为分析对象,因为残差流被认为是LLM中信息传递的关键路径。2) 使用MLP神经元作为分析对象,因为MLP层是LLM中进行非线性变换的关键模块。3) 设计特定的实验来区分内在价值观和提示价值观,例如,通过改变提示来观察模型行为的变化。4) 使用线性探针等技术来提取价值向量,并使用统计方法来识别价值神经元。
📊 实验亮点
实验结果表明,提示价值观比内在价值观具有更高的可操纵性,而内在价值观则能产生更丰富的响应多样性。内在机制的独特组件促进了词汇多样性,而提示机制的独特组件则加强了指令遵循,甚至在越狱等任务中也有效。这些发现为理解和控制LLM的价值观表达提供了新的视角。
🎯 应用场景
该研究成果可应用于价值观对齐、角色扮演、风险控制等领域。例如,可以利用该研究来设计更有效的提示,引导LLM输出符合特定价值观的内容。此外,还可以利用该研究来检测和缓解LLM中的偏见和有害内容,提高LLM的安全性。
📄 摘要(原文)
Large language models (LLMs) can express different values in two distinct ways: (1) intrinsic expression, reflecting the model's inherent values learned during training, and (2) prompted expression, elicited by explicit prompts. Given their widespread use in value alignment and persona steering, it is paramount to clearly understand their underlying mechanisms, particularly whether they mostly overlap (as one might expect) or rely on substantially different mechanisms, but this remains largely understudied. We analyze this at the mechanistic level using two approaches: (1) value vectors, feature directions representing value mechanisms extracted from the residual stream, and (2) value neurons, MLP neurons that contribute to value expressions. We demonstrate that intrinsic and prompted value mechanisms partly share common components that are crucial for inducing value expression, but also possess unique elements that manifest in different ways. As a result, these mechanisms lead to different degrees of value steerability (prompted > intrinsic) and response diversity (intrinsic > prompted). In particular, components unique to the intrinsic mechanism seem to promote lexical diversity in responses, whereas those specific to the prompted mechanism primarily strengthen instruction following, taking effect even in distant tasks like jailbreaking.