A Block Metropolis-Hastings Sampler for Controllable Energy-based Text Generation

📄 arXiv: 2312.04510v1 📥 PDF

作者: Jarad Forristal, Niloofar Mireshghallah, Greg Durrett, Taylor Berg-Kirkpatrick

分类: cs.CL, cs.LG

发布日期: 2023-12-07


💡 一句话要点

提出基于Block Metropolis-Hastings采样的可控能量模型文本生成方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可控文本生成 能量模型 Metropolis-Hastings采样 大型语言模型 迭代Prompting

📋 核心要点

  1. 能量模型在可控文本生成中表现出色,但全局归一化特性使其需要近似推断,现有方法单token修改效率低。
  2. 论文提出一种新的MH采样器,通过迭代提示大型语言模型来重写整个序列,实现更高效的采样。
  3. 实验表明,新方法在下游任务性能和目标分布采样精度上优于单token提议技术,并能灵活控制生成长度。

📝 摘要(中文)

本文提出了一种用于可控文本生成的能量模型语言建模框架,该框架能够灵活地整合任意判别器。由于能量模型本质上是全局归一化的,因此需要像Metropolis-Hastings (MH) 这样的近似推断技术。以往的研究主要探索了简单的提议分布,例如Gibbs采样,每次只修改一个token。本文开发了一种新的MH采样器,通过迭代提示大型语言模型,在每一步中提议重写整个序列。这种新的采样器(a) 能够更有效和准确地从目标分布中采样,并且 (b) 允许通过采样过程确定生成长度,而不需要像过去的工作那样预先固定长度。在两个受控生成任务上进行的实验表明,与单token提议技术相比,该方法在下游性能和更准确的目标分布采样方面均有提升。

🔬 方法详解

问题定义:能量模型在可控文本生成中应用广泛,但由于其全局归一化的特性,需要借助Metropolis-Hastings (MH)等近似采样方法进行推断。现有方法,如Gibbs采样,通常每次只修改单个token,导致采样效率低下,难以快速探索整个文本空间。此外,现有方法通常需要预先固定生成文本的长度,限制了生成过程的灵活性。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大生成能力,将其作为MH采样器的提议分布。具体来说,每次采样时,不是修改单个token,而是利用LLM对整个序列进行重写,从而实现更高效的全局探索。通过迭代提示LLM,逐步逼近目标分布。

技术框架:该方法的核心是Block Metropolis-Hastings采样器,其主要流程如下: 1. 初始化:从一个初始文本序列开始。 2. 提议:使用大型语言模型(LLM)作为提议分布,根据当前序列生成一个新的候选序列。LLM通过迭代prompting的方式生成候选序列,每次prompt都基于当前序列和目标分布的约束条件。 3. 接受/拒绝:根据MH算法的接受概率,决定接受或拒绝新的候选序列。接受概率取决于候选序列和当前序列的能量值(由能量模型计算)以及目标分布的约束条件。 4. 迭代:重复步骤2和3,直到达到收敛条件。

关键创新:该方法最重要的创新点在于使用大型语言模型作为MH采样器的提议分布,从而实现了对整个序列的block sampling。与传统的单token sampling相比,block sampling能够更有效地探索文本空间,加速收敛。此外,该方法允许在采样过程中动态调整生成文本的长度,无需预先固定。

关键设计: * Prompting策略:如何有效地prompt LLM以生成符合目标分布约束的候选序列是关键。论文可能采用了特定的prompt模板或训练策略来优化LLM的生成效果。 * 能量函数设计:能量函数用于评估序列的质量,其设计直接影响采样结果。能量函数通常包含语言模型本身的得分以及外部判别器的得分,用于衡量序列的流畅性和满足约束条件的程度。 * 接受概率计算:MH算法的接受概率需要仔细设计,以保证采样结果符合目标分布。接受概率通常涉及到能量值的差以及提议分布的概率比。

📊 实验亮点

实验结果表明,该方法在两个受控生成任务上均取得了显著的性能提升。与单token提议技术相比,该方法能够更准确地从目标分布中采样,并生成更高质量的文本。具体而言,下游任务的性能指标提升了X%,目标分布的采样精度提升了Y%(具体数值需参考论文)。

🎯 应用场景

该研究成果可应用于多种可控文本生成场景,例如:根据用户指定的属性(如情感、风格、主题)生成文本;生成符合特定语法或语义规则的文本;生成对抗样本以提高模型的鲁棒性。该方法在对话系统、内容创作、机器翻译等领域具有广泛的应用前景。

📄 摘要(原文)

Recent work has shown that energy-based language modeling is an effective framework for controllable text generation because it enables flexible integration of arbitrary discriminators. However, because energy-based LMs are globally normalized, approximate techniques like Metropolis-Hastings (MH) are required for inference. Past work has largely explored simple proposal distributions that modify a single token at a time, like in Gibbs sampling. In this paper, we develop a novel MH sampler that, in contrast, proposes re-writes of the entire sequence in each step via iterative prompting of a large language model. Our new sampler (a) allows for more efficient and accurate sampling from a target distribution and (b) allows generation length to be determined through the sampling procedure rather than fixed in advance, as past work has required. We perform experiments on two controlled generation tasks, showing both downstream performance gains and more accurate target distribution sampling in comparison with single-token proposal techniques.