The Problem of Alignment

作者: Tsvetelina Hristova, Liam Magee, Karen Soldatic

分类: cs.CL, cs.CY

发布日期: 2023-12-30

备注: 23 pages, 1 figure

💡 一句话要点

探讨大语言模型对齐问题，揭示语言、技术与社会规范的复杂关系

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 对齐问题 人类价值观 语言实践 社会结构化

📋 核心要点

现有大语言模型存在重现语料库偏差的风险，需要与人类价值观对齐，但对齐过程复杂且充满冲突。
论文分析了ChatGPT4对异常语言的编辑以及提示工程实践，揭示用户与模型之间的双向互动。
论文将对齐问题置于历史背景下，探讨了莫斯科语言学派对离散结构和连续概率分布的调和尝试。

📝 摘要（中文）

大型语言模型（LLM）通过学习大规模语料库中的统计模式来生成序列。为了避免重现语料库偏差，模型在初始训练后必须与人类价值观对齐，优先选择某些延续而非其他延续。对齐可以被视为将规范结构叠加到统计模型上，揭示了语言和技术之间复杂且充满冲突的相互关系。这种关系塑造了语言理论、语言实践和主体性，这对于当前人工智能生成文本的复杂性尤为重要。我们通过分析ChatGPT4如何编辑乔伊斯《尤利西斯》片段中被认为“异常”的语言以及提示工程的新语言实践，来考察这种结构化实践作为用户和模型之间的双向互动。然后，我们将这个对齐问题置于历史背景下，回顾了战后早期的语言辩论，这些辩论将意义的两种观点对立起来：离散结构和连续概率分布。我们讨论了莫斯科语言学派在很大程度上被忽视的工作，该学派试图调和这种对立。我们对莫斯科学派以及后来西尔勒和克里斯蒂娃的相关论点的关注，以新的视角看待对齐问题：关注语言实践的社会结构化，包括对异常现象的结构化，就像乔伊斯文本一样，这些异常现象存在于对表达惯例的蔑视中。围绕语言的交际导向的这些辩论可以帮助解释用户和LLM之间发生的一些当代行为和相互依赖关系。

🔬 方法详解

问题定义：论文旨在探讨大语言模型（LLM）的对齐问题，即如何使LLM的输出符合人类价值观，避免重现语料库中的偏差。现有方法主要依赖于对模型进行微调，使其优先选择某些延续而非其他延续，但这种方法可能存在以下痛点：一是难以定义和量化“人类价值观”，二是可能导致模型过度拟合特定价值观，从而丧失生成能力的多样性，三是缺乏对语言实践社会结构化过程的深入理解。

核心思路：论文的核心思路是将对齐问题置于更广阔的语言、技术和社会背景下进行考察。通过分析ChatGPT4对《尤利西斯》片段的编辑以及提示工程实践，揭示用户与模型之间的双向互动。同时，回顾历史上的语言学辩论，特别是莫斯科语言学派对离散结构和连续概率分布的调和尝试，为理解对齐问题提供新的视角。论文强调，对齐不仅仅是技术问题，更涉及语言实践的社会结构化，包括对异常现象的结构化。

技术框架：论文并没有提出具体的技术框架，而是采用了一种思辨性的研究方法，通过案例分析和历史回顾来探讨对齐问题。具体而言，论文首先分析了ChatGPT4对《尤利西斯》片段的编辑，揭示了模型对“异常”语言的审查机制。然后，论文考察了提示工程这种新的语言实践，分析了用户如何通过提示来引导模型的输出。最后，论文回顾了历史上的语言学辩论，为理解对齐问题提供理论支撑。

关键创新：论文的创新之处在于：一是将对齐问题置于更广阔的语言、技术和社会背景下进行考察，超越了单纯的技术视角；二是强调了语言实践的社会结构化对对齐问题的重要性，认为对齐不仅仅是技术问题，更涉及对语言规范和异常现象的理解；三是通过案例分析和历史回顾，为理解对齐问题提供了新的视角和理论支撑。

关键设计：论文没有涉及具体的技术细节，因此没有关键的参数设置、损失函数、网络结构等技术细节。

📊 实验亮点

论文通过分析ChatGPT4对《尤利西斯》片段的编辑，揭示了模型对“异常”语言的审查机制，并考察了提示工程这种新的语言实践，分析了用户如何通过提示来引导模型的输出。这些案例分析为理解大语言模型的对齐问题提供了具体的实例。

🎯 应用场景

该研究有助于更好地理解大语言模型的对齐问题，为开发更符合人类价值观、更具社会责任感的人工智能系统提供理论指导。其潜在应用领域包括：内容审核、教育、医疗、法律等，有助于减少人工智能系统在这些领域产生偏见或歧视的可能性，并促进人与人工智能系统的和谐共处。

📄 摘要（原文）

Large Language Models produce sequences learned as statistical patterns from large corpora. In order not to reproduce corpus biases, after initial training models must be aligned with human values, preferencing certain continuations over others. Alignment, which can be viewed as the superimposition of normative structure onto a statistical model, reveals a conflicted and complex interrelationship between language and technology. This relationship shapes theories of language, linguistic practice and subjectivity, which are especially relevant to the current sophistication in artificially produced text. We examine this practice of structuration as a two-way interaction between users and models by analysing how ChatGPT4 redacts perceived `anomalous' language in fragments of Joyce's Ulysses and the new linguistic practice of prompt engineering. We then situate this alignment problem historically, revisiting earlier postwar linguistic debates which counterposed two views of meaning: as discrete structures, and as continuous probability distributions. We discuss the largely occluded work of the Moscow Linguistic School, which sought to reconcile this opposition. Our attention to the Moscow School and later related arguments by Searle and Kristeva casts the problem of alignment in a new light: as one involving attention to the social structuration of linguistic practice, including structuration of anomalies that, like the Joycean text, exist in defiance of expressive conventions. These debates around the communicative orientation toward language can help explain some of the contemporary behaviours and interdependencies that take place between users and LLMs.

The Problem of Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册