Jointly Reinforcing Diversity and Quality in Language Model Generations

作者: Tianjian Li, Yiming Zhang, Ping Yu, Swarnadeep Saha, Daniel Khashabi, Jason Weston, Jack Lanchantin, Tianlu Wang

分类: cs.CL, cs.LG

发布日期: 2025-09-02

备注: 29 pages, 11 figures

💡 一句话要点

提出DARLING框架，联合强化语言模型生成的多样性和质量，提升创造性任务表现。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 强化学习 多样性生成 自然语言生成 创造性任务

📋 核心要点

现有语言模型后训练侧重质量而牺牲了生成内容的多样性，限制了其在创造性任务中的应用。
DARLING框架通过学习配分函数来衡量语义多样性，并将其与质量奖励结合，进行联合优化。
实验表明，DARLING在指令跟随、创意写作和竞赛数学等任务中，均优于仅关注质量的强化学习方法。

📝 摘要（中文）

大型语言模型（LM）的后训练通常优先考虑准确性和有用性，但牺牲了多样性。这种现象造成了一种矛盾：后训练虽然提高了响应质量，但也锐化了输出分布，减少了想法的范围，限制了LM在头脑风暴、故事讲述或问题解决等创造性和探索性任务中的效用。本文提出了多样性感知强化学习（DARLING）框架，该框架联合优化响应质量和语义多样性。DARLING的核心是引入了一个学习到的配分函数，以衡量超出表面词汇变化的多样性。然后，在在线强化学习期间，将这种多样性信号与质量奖励相结合，鼓励模型生成高质量且独特的输出。在多个模型系列和规模上的实验表明，DARLING可以推广到两种场景：不可验证的任务（指令跟随和创意写作）和可验证的任务（竞赛数学）。在第一种场景的五个基准测试中，DARLING始终优于仅关注质量的强化学习基线，产生更高质量和新颖性的输出。在第二种场景中，DARLING实现了更高的pass@1（解决方案质量）和pass@k（解决方案多样性）。最引人注目的是，显式地优化多样性可以促进在线强化学习中的探索，从而产生更高质量的响应。

🔬 方法详解

问题定义：现有大型语言模型在经过后训练后，虽然在准确性和有用性方面有所提升，但生成文本的多样性却显著降低。这使得它们在需要创造性和探索性的任务中表现不佳，例如头脑风暴、故事创作等。现有方法往往只关注提高生成文本的质量，而忽略了多样性的重要性。

核心思路：DARLING的核心思路是同时优化生成文本的质量和多样性。通过引入一个可学习的配分函数来衡量生成文本的语义多样性，并将其作为一个奖励信号与质量奖励相结合，在强化学习过程中引导模型生成既高质量又多样的文本。这样可以鼓励模型探索更广阔的生成空间，避免陷入局部最优解。

技术框架：DARLING框架采用在线强化学习的方式进行训练。整体流程如下：首先，模型生成一段文本；然后，计算该文本的质量奖励和多样性奖励；最后，将这两个奖励结合起来，用于更新模型的参数。其中，多样性奖励的计算依赖于一个可学习的配分函数，该函数能够衡量生成文本的语义多样性，而不仅仅是表面上的词汇多样性。

关键创新：DARLING的关键创新在于引入了可学习的配分函数来衡量生成文本的语义多样性。与传统的基于词汇多样性的方法相比，该方法能够更准确地反映生成文本的语义差异，从而更好地引导模型生成多样的文本。此外，DARLING还通过联合优化质量和多样性，避免了两者之间的trade-off，实现了双赢。

关键设计：DARLING的关键设计包括：1) 使用Transformer模型作为生成模型；2) 使用REINFORCE算法进行强化学习；3) 使用学习到的配分函数来计算多样性奖励；4) 将质量奖励和多样性奖励进行加权求和，得到最终的奖励信号。配分函数的具体形式未知，但论文强调其可学习性以及对语义多样性的衡量能力。

📊 实验亮点

DARLING在多个基准测试中均取得了显著的性能提升。在不可验证的任务（指令跟随和创意写作）中，DARLING始终优于仅关注质量的强化学习基线，生成更高质量和新颖性的输出。在可验证的任务（竞赛数学）中，DARLING实现了更高的pass@1（解决方案质量）和pass@k（解决方案多样性）。尤其值得注意的是，DARLING通过显式地优化多样性，促进了在线强化学习中的探索，从而产生了更高质量的响应。

🎯 应用场景

DARLING框架可应用于各种需要创造性和探索性的自然语言生成任务，例如：头脑风暴、故事创作、问题解决、对话生成等。通过提高生成文本的多样性，可以帮助用户获得更丰富的灵感和更全面的解决方案。该研究还有助于提升语言模型在开放域场景下的应用能力，使其能够更好地适应各种复杂和不确定的环境。

📄 摘要（原文）

Post-training of Large Language Models (LMs) often prioritizes accuracy and helpfulness at the expense of diversity. This creates a tension: while post-training improves response quality, it also sharpens output distributions and reduces the range of ideas, limiting the usefulness of LMs in creative and exploratory tasks such as brainstorming, storytelling, or problem solving. We address this challenge with Diversity-Aware Reinforcement Learning (DARLING), a framework that jointly optimizes for response quality and semantic diversity. At its core, DARLING introduces a learned partition function to measure diversity beyond surface-level lexical variations. This diversity signal is then combined with a quality reward during online reinforcement learning, encouraging models to generate outputs that are both high-quality and distinct. Experiments across multiple model families and sizes show that DARLING generalizes to two regimes: non-verifiable tasks (instruction following and creative writing) and verifiable tasks (competition math). On five benchmarks in the first setting, DARLING consistently outperforms quality-only RL baselines, producing outputs that are simultaneously of higher quality and novelty. In the second setting, DARLING achieves higher pass@1 (solution quality) and pass@k (solution variety). Most strikingly, explicitly optimizing for diversity catalyzes exploration in online RL, which manifests itself as higher-quality responses.

Jointly Reinforcing Diversity and Quality in Language Model Generations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册