Faithful Persona-based Conversational Dataset Generation with Large Language Models

📄 arXiv: 2312.10007v1 📥 PDF

作者: Pegah Jandaghi, XiangHai Sheng, Xinyi Bai, Jay Pujara, Hakim Sidahmed

分类: cs.CL, cs.LG

发布日期: 2023-12-15


💡 一句话要点

提出基于大型语言模型的生成器-评论家框架,用于生成高质量的、基于角色设定的对话数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话生成 大型语言模型 角色设定 数据集构建 生成器-评论家

📋 核心要点

  1. 现有的对话数据集构建成本高昂,且难以保证角色一致性和对话质量,限制了对话模型的发展。
  2. 论文提出生成器-评论家框架,利用大型语言模型自动生成并筛选高质量的、基于角色设定的对话数据。
  3. 实验表明,该方法生成的Synthetic-Persona-Chat数据集在图灵测试中表现更佳,表明其对话质量更高。

📝 摘要(中文)

高质量的对话数据集对于开发能够与用户交流的AI模型至关重要。利用角色设定可以促进聊天机器人和用户之间更深入的互动,角色设定提供了对用户个性、动机和行为的洞察。在多样化和全面的基于角色设定的数据集上训练自然语言处理(NLP)模型,可以产生与用户建立更深层次联系并保持用户参与度的对话模型。本文利用大型语言模型(LLM)的能力,从种子数据集创建大型、高质量的对话数据集。我们提出了一个生成器-评论家架构框架来扩展初始数据集,同时提高对话的质量。生成器是一个被提示输出对话的LLM。评论家由多个专家LLM组成,这些专家LLM控制生成的对话的质量。这些专家选择最佳生成的对话,然后我们用这些对话来改进生成器。我们发布了Synthetic-Persona-Chat,它由从Persona-Chat生成的2万个对话组成。我们通过广泛的实验评估了Synthetic-Persona-Chat和我们的生成框架在不同维度上的质量,并观察到在图灵测试中,Synthetic-Persona-Chat相对于Persona-Chat的失败率在三次迭代中从17.2%降低到8.8%。

🔬 方法详解

问题定义:论文旨在解决对话数据集构建成本高、质量难以保证的问题,尤其是在角色设定对话场景下。现有方法通常依赖人工标注或简单的规则生成,难以扩展且角色一致性较差。这限制了对话模型在实际应用中的表现,尤其是在需要个性化交互的场景中。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的生成能力,自动生成对话数据,并通过一个“评论家”模型来评估和筛选生成的对话,从而保证数据集的质量。这种生成式方法可以显著降低数据构建成本,并提高数据的多样性和角色一致性。

技术框架:整体框架是一个生成器-评论家架构。生成器是一个经过提示的LLM,负责生成对话。评论家由多个专家LLM组成,每个专家负责评估对话的不同方面(例如,角色一致性、流畅性、信息量)。评论家对生成的对话进行评分,并选择最佳的对话加入数据集。然后,使用这些高质量的对话来微调生成器,从而提高生成器的生成质量。这个过程可以迭代进行,逐步提高数据集的质量。

关键创新:该方法最重要的创新点在于利用多个专家LLM作为评论家,对生成的对话进行多维度评估。这种方法可以更全面地评估对话的质量,并选择出更符合要求的对话。此外,通过迭代训练生成器,可以不断提高生成器的生成质量,从而生成更高质量的对话数据集。

关键设计:论文中没有详细说明具体的参数设置、损失函数或网络结构等技术细节。但是,可以推断,生成器可能使用了标准的语言模型训练方法,例如交叉熵损失函数。评论家可能使用了不同的评分函数来评估对话的不同方面。具体的提示工程和专家LLM的选择也是关键的设计因素,但论文中没有详细描述。

📊 实验亮点

实验结果表明,使用该方法生成的Synthetic-Persona-Chat数据集在图灵测试中表现优于原始的Persona-Chat数据集。具体而言,Synthetic-Persona-Chat相对于Persona-Chat的失败率在三次迭代中从17.2%降低到8.8%。这表明该方法能够有效提高对话数据集的质量,并生成更逼真、更自然的对话。

🎯 应用场景

该研究成果可广泛应用于聊天机器人、虚拟助手、在线客服等领域。通过使用该方法生成的高质量角色设定对话数据集,可以训练出更具个性化和 engaging 的对话模型,从而提升用户体验和满意度。此外,该方法还可以用于生成特定领域的对话数据集,例如医疗咨询、金融服务等。

📄 摘要(原文)

High-quality conversational datasets are essential for developing AI models that can communicate with users. One way to foster deeper interactions between a chatbot and its user is through personas, aspects of the user's character that provide insights into their personality, motivations, and behaviors. Training Natural Language Processing (NLP) models on a diverse and comprehensive persona-based dataset can lead to conversational models that create a deeper connection with the user, and maintain their engagement. In this paper, we leverage the power of Large Language Models (LLMs) to create a large, high-quality conversational dataset from a seed dataset. We propose a Generator-Critic architecture framework to expand the initial dataset, while improving the quality of its conversations. The Generator is an LLM prompted to output conversations. The Critic consists of a mixture of expert LLMs that control the quality of the generated conversations. These experts select the best generated conversations, which we then use to improve the Generator. We release Synthetic-Persona-Chat, consisting of 20k conversations seeded from Persona-Chat. We evaluate the quality of Synthetic-Persona-Chat and our generation framework on different dimensions through extensive experiments, and observe that the losing rate of Synthetic-Persona-Chat against Persona-Chat during Turing test decreases from 17.2% to 8.8% over three iterations.