Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue

作者: Guan-Ting Lin, Prashanth Gurunath Shivakumar, Ankur Gandhe, Chao-Han Huck Yang, Yile Gu, Shalini Ghosh, Andreas Stolcke, Hung-yi Lee, Ivan Bulyko

分类: cs.CL, eess.AS

发布日期: 2023-12-23 (更新: 2024-01-17)

备注: Accepted by ICASSP 2024. Camera-ready version

💡 一句话要点

提出ParalinGPT，利用语音模态增强LLM在口语对话中的表现，提升情感识别和文本生成。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 口语对话 大型语言模型 副语言信息 多模态学习 情感识别 语音嵌入 序列化多任务学习

📋 核心要点

现有LLM忽略了口语对话中重要的副语言信息，如情感和语调，导致对话不够自然和人性化。
ParalinGPT利用文本和语音模态，通过序列化的多任务学习框架，同时预测情感和生成回复文本。
实验表明，ParalinGPT在情感分类和文本生成任务上均优于传统方法，显著提升了对话质量。

📝 摘要（中文）

大型语言模型（LLM）在聊天、推理和问答等任务中表现出卓越的能力。然而，标准的LLM可能会忽略诸如情感、情绪和说话风格等重要的副语言信息，而这些信息对于实现自然、类人的口语对话至关重要，尤其是在这些信息由声学线索传达时。因此，我们提出了副语言增强型生成预训练Transformer（ParalinGPT），这是一种利用文本和语音模态来更好地建模口语对话的语言内容和副语言属性的LLM。该模型在序列化的多任务多模态框架中，将文本的对话上下文、语音嵌入和副语言属性作为输入提示。具体来说，我们的框架以自回归条件化的方式，按当前副语言属性预测、响应副语言属性预测和响应文本生成的顺序对任务进行序列化。我们使用Switchboard-1语料库，包括其情感标签作为副语言属性，作为我们的口语对话数据集。实验结果表明，所提出的序列化多任务方法在当前和响应情感分类方面优于典型的序列分类技术。此外，利用对话上下文和语音嵌入显著提高了响应文本生成和情感预测。我们提出的框架在当前情感准确率、响应情感准确率和响应文本BLEU得分方面分别实现了6.7%、12.0%和3.5%的相对提升。

🔬 方法详解

问题定义：现有的大型语言模型在处理口语对话时，往往忽略了语音中蕴含的丰富副语言信息，例如说话者的情感、语调和风格。这些信息对于理解对话的真实含义和生成自然的回复至关重要。因此，如何将这些副语言信息有效地融入到LLM中，是本文要解决的核心问题。现有方法通常只关注文本信息，无法充分利用语音模态的优势。

核心思路：本文的核心思路是构建一个副语言增强的LLM，即ParalinGPT。该模型同时利用文本和语音模态的信息，通过多任务学习的方式，让模型能够更好地理解和生成口语对话。通过将副语言属性预测和文本生成任务进行序列化，模型可以更好地利用上下文信息，从而提高对话的质量。

技术框架：ParalinGPT的整体框架是一个序列化的多任务多模态模型。它包含以下几个主要模块：1) 文本编码器：用于提取文本的上下文信息。2) 语音嵌入模块：用于提取语音的特征表示。3) 副语言属性预测模块：用于预测当前对话和回复的情感等副语言属性。4) 文本生成模块：用于生成回复文本。这些模块通过自回归的方式进行连接，即前一个模块的输出作为后一个模块的输入。

关键创新：本文最重要的技术创新点在于提出了序列化的多任务学习框架。与传统的并行多任务学习方法不同，本文将副语言属性预测和文本生成任务进行序列化，使得模型可以更好地利用上下文信息。此外，本文还提出了将语音嵌入作为输入提示的方法，使得模型可以更好地利用语音模态的信息。

关键设计：在具体实现上，本文使用了Transformer作为文本编码器和文本生成模块。语音嵌入模块使用了预训练的语音模型来提取语音特征。副语言属性预测模块使用了简单的分类器。损失函数方面，本文使用了交叉熵损失函数来训练副语言属性预测模块，并使用了语言模型损失函数来训练文本生成模块。Switchboard-1语料库的情感标签被用作副语言属性。

📊 实验亮点

实验结果表明，ParalinGPT在Switchboard-1语料库上取得了显著的性能提升。在当前情感准确率、响应情感准确率和响应文本BLEU得分方面，分别实现了6.7%、12.0%和3.5%的相对提升。这些结果表明，ParalinGPT能够有效地利用语音模态的信息，从而提高对话的质量。

🎯 应用场景

ParalinGPT在人机对话、智能客服、情感计算等领域具有广泛的应用前景。它可以帮助机器更好地理解人类的情感和意图，从而生成更自然、更人性化的回复。未来，该技术可以应用于开发更智能的虚拟助手、更具同理心的聊天机器人，以及更有效的心理健康支持系统。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated superior abilities in tasks such as chatting, reasoning, and question-answering. However, standard LLMs may ignore crucial paralinguistic information, such as sentiment, emotion, and speaking style, which are essential for achieving natural, human-like spoken conversation, especially when such information is conveyed by acoustic cues. We therefore propose Paralinguistics-enhanced Generative Pretrained Transformer (ParalinGPT), an LLM that utilizes text and speech modalities to better model the linguistic content and paralinguistic attributes of spoken dialogue. The model takes the conversational context of text, speech embeddings, and paralinguistic attributes as input prompts within a serialized multitasking multimodal framework. Specifically, our framework serializes tasks in the order of current paralinguistic attribute prediction, response paralinguistic attribute prediction, and response text generation with autoregressive conditioning. We utilize the Switchboard-1 corpus, including its sentiment labels as the paralinguistic attribute, as our spoken dialogue dataset. Experimental results indicate the proposed serialized multitasking method outperforms typical sequence classification techniques on current and response sentiment classification. Furthermore, leveraging conversational context and speech embeddings significantly improves both response text generation and sentiment prediction. Our proposed framework achieves relative improvements of 6.7%, 12.0%, and 3.5% in current sentiment accuracy, response sentiment accuracy, and response text BLEU score, respectively.

Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册