Reasons to Reject? Aligning Language Models with Judgments

📄 arXiv: 2312.14591v4 📥 PDF

作者: Weiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi

分类: cs.CL

发布日期: 2023-12-22 (更新: 2024-06-06)

备注: Accepted at ACL 2024 Findings. Our source codes and models are publicly available at https://github.com/wwxu21/CUT


💡 一句话要点

提出对比非似然训练(CUT)框架,利用语言反馈提升大语言模型对齐效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型对齐 语言反馈 对比学习 非似然训练 AlpacaEval

📋 核心要点

  1. 现有基于标量奖励的LLM对齐方法存在局限性,无法充分利用更丰富的语言反馈信息。
  2. 提出对比非似然训练(CUT)框架,通过对比学习,使模型倾向于生成符合判断的文本,抑制不符合判断的文本。
  3. 实验表明,CUT在AlpacaEval上显著优于现有方法,证明了语言反馈在LLM对齐中的有效性。

📝 摘要(中文)

本文首次系统性地探索了通过语言反馈(即判断)来对齐大型语言模型(LLMs)的方法,而非以往的标量奖励。研究发现,现有方法无法充分利用语言反馈。为此,论文提出了一个新颖的框架,即对比非似然训练(CUT),它能够基于判断进行细粒度的不当内容检测和纠正。实验结果表明,仅使用1317个现成的判断数据,CUT(LLaMA2-13b)就能胜过175B的DaVinci003,并在AlpacaEval上超越最佳基线50.84分。CUT(LLaMA2-chat-13b)还可以使用最新的模型特定判断以迭代方式对齐LLMs,在AlpacaEval上将性能从81.09提高到91.68分。进一步的分析表明,在LLM对齐方面,判断比奖励具有更大的潜力。

🔬 方法详解

问题定义:现有的大语言模型对齐方法主要依赖于标量奖励信号,例如强化学习中的奖励函数。然而,人类通常通过自然语言形式的反馈来学习和纠正行为。如何有效地利用这种更丰富、更细粒度的语言反馈(即判断)来对齐LLM是一个挑战。现有方法无法充分利用判断中包含的丰富信息,例如错误类型、改进建议等。

核心思路:论文的核心思路是利用对比学习的思想,通过对比“好”的(符合判断的)和“坏”的(不符合判断的)文本,来训练模型。具体来说,模型应该倾向于生成与判断一致的文本,同时抑制生成与判断不一致的文本。这种对比学习的方式能够更有效地利用语言反馈中的信息,从而提升模型的对齐效果。

技术框架:CUT框架主要包含以下几个步骤:1) 收集语言反馈数据,即针对模型生成的文本,人工提供判断(例如,指出错误、给出改进建议)。2) 构建对比学习数据集,将模型生成的文本和对应的判断配对,形成正例和负例。3) 使用对比非似然损失函数训练模型,使模型倾向于生成与正例相似的文本,抑制生成与负例相似的文本。4) 可以迭代地使用模型生成的文本和新的判断来进一步提升模型性能。

关键创新:CUT框架的关键创新在于它能够有效地利用语言反馈进行细粒度的不当内容检测和纠正。与传统的基于标量奖励的对齐方法相比,CUT能够利用判断中包含的丰富信息,例如错误类型、改进建议等,从而更有效地提升模型的对齐效果。此外,CUT框架还支持迭代式的对齐,可以通过不断地收集新的判断并重新训练模型来持续提升模型性能。

关键设计:CUT框架的关键设计在于对比非似然损失函数。该损失函数的目标是最小化模型生成与正例不相似文本的概率,同时最大化模型生成与负例相似文本的概率。具体来说,可以使用交叉熵损失函数来衡量模型生成文本的概率,并使用余弦相似度来衡量文本之间的相似度。此外,还可以使用一些技巧来提高训练的稳定性,例如梯度裁剪、学习率衰减等。论文中使用了 LLaMA2 系列模型,并针对 AlpacaEval 数据集进行了实验。

📊 实验亮点

实验结果表明,CUT框架在AlpacaEval数据集上取得了显著的性能提升。仅使用1317个现成的判断数据,CUT(LLaMA2-13b)就能胜过175B的DaVinci003,并在AlpacaEval上超越最佳基线50.84分。CUT(LLaMA2-chat-13b)还可以使用最新的模型特定判断以迭代方式对齐LLMs,在AlpacaEval上将性能从81.09提高到91.68分。这些结果表明,语言反馈在LLM对齐方面具有巨大的潜力。

🎯 应用场景

该研究成果可应用于各种需要与人类进行自然语言交互的LLM应用场景,例如智能助手、聊天机器人、内容生成等。通过利用人类的语言反馈,可以使LLM更好地理解人类意图,生成更符合人类价值观的文本,从而提升用户体验和安全性。此外,该方法还可以用于提升LLM的鲁棒性和泛化能力。

📄 摘要(原文)

As humans, we consistently interact with our peers and receive feedback in the form of natural language. This language feedback allows us to maintain appropriate behavior, and rectify potential errors. The question arises naturally: can we use language feedback to align large language models (LLMs)? In contrast to previous research that aligns LLMs with scalar rewards, we present the first systematic exploration of alignment through the lens of language feedback (i.e., judgment). We start with an in-depth investigation of potential methods that can be adapted for aligning LLMs with judgments, revealing that these methods cannot fully capitalize on judgments. To facilitate more effective utilization of judgments, we propose a novel framework, Contrastive Unlikelihood Training (CUT), that allows for fine-grained inappropriate content detection and correction based on judgments. Our results show that, with merely 1317 off-the-shelf judgment data, CUT (LLaMA2-13b) can beat the 175B DaVinci003 and surpass the best baseline by 50.84 points on AlpacaEval. CUT (LLaMA2-chat-13b) can also align LLMs in an iterative fashion using up-to-date model-specific judgments, improving performance from 81.09 to 91.68 points on AlpacaEval. Further analysis suggests that judgments hold greater potential than rewards in LLM alignment.