Post-training Large Language Models for Diverse High-Quality Responses

📄 arXiv: 2509.04784v2 📥 PDF

作者: Yilei Chen, Souradip Chakraborty, Lorenz Wolf, Yannis Paschalidis, Aldo Pacchiano

分类: cs.CL, cs.AI

发布日期: 2025-09-05 (更新: 2025-10-04)


💡 一句话要点

提出DQO方法,在后训练阶段提升大语言模型生成回复的多样性和质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练 强化学习 多样性优化 行列式点过程

📋 核心要点

  1. 现有强化学习后训练大语言模型的方法,通常会降低模型输出的多样性,导致回复过于单一。
  2. 论文提出DQO方法,基于行列式点过程,联合优化大语言模型的质量和语义多样性。
  3. 实验结果表明,DQO方法在指令跟随、摘要、故事生成和推理任务中,显著提高了语义多样性,且不牺牲模型质量。

📝 摘要(中文)

强化学习(RL)已成为后训练大语言模型(LLMs)的一种流行方法。虽然它提高了模型在下游任务中的性能,但通常会降低模型输出的多样性,导致狭窄的、规范的回复。现有的增强多样性的方法是有限的,要么在推理时操作,要么侧重于表面上的差异。我们提出了一种名为DQO(多样性质量优化)的新的训练方法,该方法基于行列式点过程(DPPs)来联合优化LLMs的质量和语义多样性。我们的方法为每个提示采样并嵌入一组响应,然后使用基于核的相似矩阵的行列式来测量多样性,作为这些响应嵌入所跨越的体积。DQO是灵活的,可以应用于现有的RL算法之上。跨指令跟随、摘要、故事生成和推理任务的实验表明,我们的方法在不牺牲模型质量的前提下,显著提高了语义多样性。

🔬 方法详解

问题定义:现有基于强化学习的LLM后训练方法,虽然能提升模型在特定任务上的性能,但往往会牺牲生成文本的多样性,导致模型倾向于生成重复、刻板的回复。现有的提升多样性的方法要么只能在推理阶段进行,要么只关注表面的词汇差异,无法有效提升语义层面的多样性。

核心思路:DQO的核心思路是同时优化LLM生成回复的质量和语义多样性。通过行列式点过程(DPPs)来建模回复集合的多样性,并将其融入到训练目标中,从而引导模型生成更多样化的回复。这样设计的目的是让模型在提升性能的同时,也能保持或提升生成内容的多样性,避免陷入局部最优。

技术框架:DQO方法可以看作是现有强化学习算法的增强模块。其整体流程如下:1. 对于每个输入prompt,LLM生成一组候选回复。2. 将这些回复嵌入到高维语义空间中。3. 计算这些嵌入向量的相似度矩阵,并利用行列式点过程计算多样性度量。4. 将多样性度量与质量度量(例如奖励信号)结合,形成最终的优化目标。5. 使用强化学习算法更新LLM的参数。

关键创新:DQO的关键创新在于使用行列式点过程(DPPs)来建模和优化回复集合的语义多样性。DPPs能够有效地衡量集合中元素之间的互斥性,从而鼓励模型生成更多样化的回复。与现有方法相比,DQO能够直接在训练阶段优化多样性,并且能够捕捉到语义层面的差异,而不仅仅是表面上的词汇差异。

关键设计:DQO的关键设计包括:1. 如何选择合适的嵌入模型来表示回复的语义信息。2. 如何定义相似度矩阵,以准确反映回复之间的语义关系。3. 如何平衡质量和多样性之间的权重,以获得最佳的性能。4. 具体来说,论文使用预训练的语言模型来生成回复的嵌入向量,使用高斯核函数来计算相似度矩阵,并使用超参数来控制质量和多样性之间的trade-off。

📊 实验亮点

实验结果表明,DQO方法在多个任务上都取得了显著的提升。例如,在故事生成任务中,DQO能够生成更加多样化和富有创意的故事,同时保持了故事的连贯性和可读性。在指令跟随任务中,DQO能够生成更加符合用户意图和需求的多样化回复。与基线方法相比,DQO在多样性指标上取得了显著的提升,同时保持了或略微提升了质量指标。

🎯 应用场景

DQO方法可以广泛应用于需要大语言模型生成多样化高质量回复的场景,例如对话系统、内容生成、创意写作等。通过提升模型生成回复的多样性,可以改善用户体验,提高内容生成的质量和创新性。该方法还有潜力应用于多智能体协作等领域,促进智能体之间的多样化行为。

📄 摘要(原文)

Reinforcement learning (RL) has emerged as a popular method for post-training large language models (LLMs). While improving the model's performance on downstream tasks, it often reduces the model's output diversity, leading to narrow, canonical responses. Existing methods to enhance diversity are limited, either by operating at inference time or by focusing on surface-level differences. We propose a novel training method named DQO (Diversity Quality Optimization) based on determinantal point processes (DPPs) to jointly optimize LLMs for quality and semantic diversity. Our approach samples and embeds a group of responses for each prompt, then uses the determinant of a kernel-based similarity matrix to measure diversity as the volume spanned by the embeddings of these responses. DQO is flexible and can be applied on top of existing RL algorithms. Experiments across instruction-following, summarization, story generation, and reasoning tasks demonstrate that our method substantially improves semantic diversity without sacrificing model quality.