AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models

作者: Wenyu Li, Xiaoqi Jiao, Yi Chang, Guangyan Zhang, Yiwen Guo

分类: cs.SD, cs.AI, cs.MM, eess.AS

发布日期: 2025-09-27

💡 一句话要点

提出AudioRole数据集，提升大语言模型在角色扮演中的音频个性化能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频角色扮演 大型语言模型 数据集 语音个性化 多模态学习

📋 核心要点

现有角色扮演大语言模型主要集中于文本，缺乏对音频特征的同步建模，导致音频角色扮演效果不佳。
AudioRole数据集通过提供大规模、高质量的同步音频-文本数据，以及说话人身份和上下文信息，弥补了这一不足。
实验表明，基于AudioRole训练的模型在声学和内容个性化方面均优于现有模型，验证了数据集的有效性。

📝 摘要（中文）

为了提升大型语言模型（LLMs）的角色扮演能力，尤其是在音频角色扮演（ARP）方面，本文提出了AudioRole数据集。该数据集从13个电视剧中精选了超过1000小时的音频，包含100万+个基于角色的对话，并提供了同步的音频-文本对，以及说话人身份和上下文元数据标注。为了验证数据集的有效性，作者还提出了ARP-Eval，一个双重评估框架，用于评估回复质量和角色保真度。实验结果表明，基于AudioRole训练的GLM-4-Voice模型（称为ARP-Model）在声学个性化方面取得了显著提升，平均声学个性化得分达到0.31，优于原始GLM-4-voice和更强大的MiniCPM-O-2.6模型。在内容个性化方面，ARP-Model的得分也达到了0.36，比未经训练的原始模型提高了约38%，并与MiniCPM-O-2.6模型持平。AudioRole包含超过115个主要角色的对话，6个训练好的ARP-Model，以及评估协议，为推进音频角色扮演研究提供了重要资源。

🔬 方法详解

问题定义：现有的大型语言模型在角色扮演任务中，主要关注文本信息，忽略了语音中的声学特征，导致在音频角色扮演场景下，无法准确模拟角色的声音特点和情感表达。现有方法缺乏高质量的、包含同步音频-文本对以及说话人信息的训练数据，难以提升模型在音频角色扮演方面的性能。

核心思路：本文的核心思路是构建一个大规模、高质量的音频角色扮演数据集AudioRole，该数据集包含丰富的角色对话音频和对应的文本，并标注了说话人身份和上下文信息。通过在该数据集上训练大型语言模型，可以使模型学习到角色声音的个性化特征，从而提升其在音频角色扮演任务中的表现。

技术框架：AudioRole数据集的构建流程主要包括以下几个步骤：1) 数据收集：从13个电视剧中收集音频和文本数据。2) 数据清洗：对收集到的数据进行清洗和过滤，去除噪声和错误信息。3) 数据标注：对清洗后的数据进行标注，包括说话人身份、对话内容和上下文信息。4) 数据划分：将标注后的数据划分为训练集、验证集和测试集。此外，论文还提出了ARP-Eval评估框架，用于评估模型的回复质量和角色保真度。

关键创新：该论文的关键创新在于构建了一个大规模、高质量的音频角色扮演数据集AudioRole，该数据集包含了丰富的角色对话音频和对应的文本，并标注了说话人身份和上下文信息。这是首个专门为音频角色扮演任务设计的数据集，为该领域的研究提供了重要资源。

关键设计：AudioRole数据集包含超过1000小时的音频，100万+个基于角色的对话，以及超过115个主要角色。数据集中的音频和文本数据是同步的，并且标注了说话人身份和上下文信息。ARP-Eval评估框架包含声学个性化和内容个性化两个方面，用于全面评估模型的性能。

📊 实验亮点

实验结果表明，基于AudioRole训练的ARP-Model在声学个性化方面取得了显著提升，平均声学个性化得分达到0.31，优于原始GLM-4-voice和更强大的MiniCPM-O-2.6模型。在内容个性化方面，ARP-Model的得分也达到了0.36，比未经训练的原始模型提高了约38%，并与MiniCPM-O-2.6模型持平。

🎯 应用场景

该研究成果可应用于智能客服、虚拟助手、游戏角色扮演等领域。通过使用AudioRole数据集训练的模型，可以创建更具个性化和真实感的语音交互体验，提升用户满意度和沉浸感。未来，该数据集还可以用于研究语音情感识别、说话人识别等相关任务。

📄 摘要（原文）

The creation of high-quality multimodal datasets remains fundamental for advancing role-playing capabilities in large language models (LLMs). While existing works predominantly focus on text-based persona simulation, Audio Role-Playing (ARP) presents unique challenges due to the need for synchronized alignment of semantic content and vocal characteristics. To address this gap, we propose AudioRole, a meticulously curated dataset from 13 TV series spanning 1K+ hours with 1M+ character-grounded dialogues, providing synchronized audio-text pairs annotated with speaker identities and contextual metadata. In addition, to demonstrate the effectiveness of the dataset, we introduced ARP-Eval, a dual-aspect evaluation framework that assesses both response quality and role fidelity. Empirical validation showing GLM-4-Voice trained on AudioRole (which we called ARP-Model) achieve an average Acoustic Personalization score of 0.31, significantly outperforming the original GLM-4-voice and the more powerful model MiniCPM-O-2.6, which specifically supports role-playing in one-shot scenarios. The ARP-Model also achieves a Content Personalization score of 0.36, surpassing the untrained original model by about 38% and maintaining the same level as MiniCPM-O-2.6. AudioRole features dialogues from over 115 main characters, 6 trained ARP-Models that role-play different characters, and evaluation protocols. Together, they provide an essential resource for advancing audio-grounded role-playing research.

AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册