Score Before You Speak: Improving Persona Consistency in Dialogue Generation using Response Quality Scores

📄 arXiv: 2508.06886v1 📥 PDF

作者: Arpita Saggar, Jonathan C. Darling, Vania Dimitrova, Duygu Sarikaya, David C. Hogg

分类: cs.CL

发布日期: 2025-08-09

备注: Camera-Ready version for ECAI 2025. 8 pages

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SBS框架以提升对话生成中的个性一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话生成 个性一致性 质量评分 数据增强 深度学习

📋 核心要点

  1. 现有方法在对话生成中难以有效整合个性忠实性,主要受限于对话数据的多样性不足。
  2. 本文提出的SBS框架通过将响应生成与质量评分的学习统一,提升了对话生成的个性一致性。
  3. 实验结果显示,SBS框架在多个基准数据集上显著提高了对话模型的性能,尤其是在个性一致性方面。

📝 摘要(中文)

基于个性的对话生成是构建对话人工智能的重要里程碑。尽管大型语言模型(LLMs)的能力不断提升,但在对话中有效整合个性忠实性仍然面临挑战,主要由于现有对话数据的多样性有限。本文提出了一种新颖的框架SBS(Score-Before-Speaking),该框架在百万和十亿参数模型上均优于以往方法。SBS的创新之处在于将响应学习与其相对质量的学习统一为一个步骤,通过训练对话模型将增强响应与质量评分相关联,并在推理时利用这一知识。我们通过对PERSONA-CHAT和ConvAI2等基准数据集的广泛实验,表明基于评分的训练使现有模型更好地捕捉个性一致的对话。

🔬 方法详解

问题定义:本文旨在解决在对话生成中有效整合个性忠实性的问题。现有方法往往无法充分利用对话数据的多样性,导致生成的对话缺乏个性一致性。

核心思路:SBS框架的核心思路是将响应生成与其质量评分的学习整合为一个步骤,通过训练模型使其能够在生成过程中考虑响应的质量,从而提升个性一致性。

技术框架:SBS框架包括两个主要模块:响应生成模块和质量评分模块。响应生成模块负责生成对话响应,而质量评分模块则通过对增强响应进行评分来指导生成过程。

关键创新:SBS的关键创新在于将响应生成与质量评分的学习统一为一个训练过程,这与传统方法分开训练的方式有本质区别,能够更好地捕捉个性一致性。

关键设计:在技术细节上,SBS采用名词替换进行数据增强,并使用基于语义相似度的评分作为响应质量的代理。此外,训练过程中将评分信息纳入输入提示,显著优于传统训练设置。

📊 实验亮点

实验结果表明,SBS框架在PERSONA-CHAT和ConvAI2数据集上显著提升了对话生成的个性一致性,相较于基线模型,性能提升幅度达到10%以上,证明了评分条件训练的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能客服、虚拟助手和社交机器人等,能够提升这些系统在与用户交互时的个性化体验。通过更好地理解和生成个性一致的对话,未来的对话系统将能够提供更自然和人性化的交流方式,增强用户满意度和参与感。

📄 摘要(原文)

Persona-based dialogue generation is an important milestone towards building conversational artificial intelligence. Despite the ever-improving capabilities of large language models (LLMs), effectively integrating persona fidelity in conversations remains challenging due to the limited diversity in existing dialogue data. We propose a novel framework SBS (Score-Before-Speaking), which outperforms previous methods and yields improvements for both million and billion-parameter models. Unlike previous methods, SBS unifies the learning of responses and their relative quality into a single step. The key innovation is to train a dialogue model to correlate augmented responses with a quality score during training and then leverage this knowledge at inference. We use noun-based substitution for augmentation and semantic similarity-based scores as a proxy for response quality. Through extensive experiments with benchmark datasets (PERSONA-CHAT and ConvAI2), we show that score-conditioned training allows existing models to better capture a spectrum of persona-consistent dialogues. Our ablation studies also demonstrate that including scores in the input prompt during training is superior to conventional training setups. Code and further details are available at https://arpita2512.github.io/score_before_you_speak