Fun-Audio-Chat Technical Report

作者: Qian Chen, Luyao Cheng, Chong Deng, Xiangang Li, Jiaqing Liu, Chao-Hong Tan, Wen Wang, Junhao Xu, Jieping Ye, Qinglin Zhang, Qiquan Zhang, Jingren Zhou

分类: cs.CL, cs.AI, cs.SD, eess.AS

发布日期: 2025-12-23

备注: 21 pages, https://github.com/FunAudioLLM/Fun-Audio-Chat

💡 一句话要点

Fun-Audio-Chat：通过双分辨率语音表示和核心鸡尾酒训练，提升语音交互大模型性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音交互 大型音频语言模型 双分辨率语音表示 核心鸡尾酒训练 灾难性遗忘 多任务学习 语音理解

📋 核心要点

现有语音-文本模型存在语音和文本token分辨率不匹配的问题，导致语义信息损失和计算成本增加。
Fun-Audio-Chat通过双分辨率语音表示（DRSR）和核心鸡尾酒训练，在效率和质量之间取得平衡，并减轻灾难性遗忘。
Fun-Audio-Chat在语音转文本、语音转语音和口语QA等任务上取得了优异的性能，并在音频理解等方面表现出竞争力。

📝 摘要（中文）

本文介绍了Fun-Audio-Chat，一种大型音频语言模型，旨在解决现有语音-文本联合模型在语音交互中面临的挑战。这些挑战包括：语音token（25Hz）和文本token（~3Hz）之间的时间分辨率不匹配导致语义信息稀释、计算成本高昂以及灾难性地遗忘文本LLM知识。Fun-Audio-Chat通过借鉴DrVoice中的两项创新来克服这些限制。首先，双分辨率语音表示（DRSR）允许共享LLM以高效的5Hz处理音频（通过token分组），而语音精炼头以高质量的25Hz生成token，从而平衡效率（GPU减少约50%）和质量。其次，核心鸡尾酒训练是一种两阶段微调方法，通过中间合并来减轻灾难性遗忘。然后，应用多任务DPO训练来增强鲁棒性、音频理解、指令遵循和语音共情。这种多阶段后训练使Fun-Audio-Chat能够保留文本LLM知识，同时获得强大的音频理解、推理和生成能力。与最近需要大规模音频-文本预训练的LALM不同，Fun-Audio-Chat利用预训练模型和广泛的后训练。Fun-Audio-Chat 8B和MoE 30B-A3B在语音转文本和语音转语音任务上表现出竞争优势，在口语QA基准测试中，在类似规模的模型中名列前茅。它们还在音频理解、语音功能调用、指令遵循和语音共情方面取得了具有竞争力甚至更优越的性能。我们开发了Fun-Audio-Chat-Duplex，这是一种全双工变体，在口语QA和全双工交互方面表现出色。我们开源了Fun-Audio-Chat-8B，包括训练和推理代码，并提供了一个交互式演示。

🔬 方法详解

问题定义：现有联合语音-文本模型在处理语音交互时，由于语音token（25Hz）和文本token（~3Hz）之间的时间分辨率差异，导致语义信息被稀释，计算成本高昂，并且容易发生灾难性遗忘，即在学习新任务时忘记了之前学习的文本LLM知识。

核心思路：Fun-Audio-Chat的核心思路是通过双分辨率语音表示（DRSR）来解决时间分辨率不匹配的问题，并利用核心鸡尾酒训练来缓解灾难性遗忘。DRSR允许模型在不同分辨率下处理语音，兼顾效率和质量。核心鸡尾酒训练则通过两阶段微调和中间合并，使模型能够更好地保留文本LLM知识。

技术框架：Fun-Audio-Chat的整体框架包括以下几个主要模块/阶段：1) 双分辨率语音表示（DRSR）：将语音信号转换为两种不同分辨率的表示，一种用于高效处理，另一种用于高质量生成。2) 共享LLM：使用大型语言模型处理低分辨率的语音表示。3) 语音精炼头：生成高质量的语音token。4) 核心鸡尾酒训练：通过两阶段微调和中间合并来缓解灾难性遗忘。5) 多任务DPO训练：增强模型的鲁棒性、音频理解、指令遵循和语音共情能力。

关键创新：Fun-Audio-Chat最重要的技术创新点在于双分辨率语音表示（DRSR）和核心鸡尾酒训练。DRSR允许模型在不同分辨率下处理语音，从而在效率和质量之间取得平衡。核心鸡尾酒训练则通过两阶段微调和中间合并，有效地缓解了灾难性遗忘问题。与需要大规模音频-文本预训练的LALM不同，Fun-Audio-Chat主要依赖后训练。

关键设计：在DRSR中，共享LLM以5Hz处理音频，而语音精炼头以25Hz生成token。核心鸡尾酒训练包括两个阶段：首先，对模型进行微调以适应新的音频任务；然后，将微调后的模型与原始文本LLM进行合并，以保留文本知识。多任务DPO训练使用多种损失函数来优化模型的不同能力，例如音频理解、指令遵循和语音共情。

🖼️ 关键图片

📊 实验亮点

Fun-Audio-Chat 8B和MoE 30B-A3B在语音转文本和语音转语音任务上表现出竞争优势，并在口语QA基准测试中，在类似规模的模型中名列前茅。此外，它们还在音频理解、语音功能调用、指令遵循和语音共情方面取得了具有竞争力甚至更优越的性能。Fun-Audio-Chat-Duplex在口语QA和全双工交互方面表现出色。

🎯 应用场景

Fun-Audio-Chat具有广泛的应用前景，例如智能助手、语音搜索、语音翻译、语音游戏和人机交互等领域。它可以实现更自然、流畅和智能的语音交互体验，提升用户满意度。未来，该技术有望应用于各种智能设备和平台，例如智能家居、智能汽车和移动设备等。

📄 摘要（原文）

Recent advancements in joint speech-text models show great potential for seamless voice interactions. However, existing models face critical challenges: temporal resolution mismatch between speech tokens (25Hz) and text tokens (~3Hz) dilutes semantic information, incurs high computational costs, and causes catastrophic forgetting of text LLM knowledge. We introduce Fun-Audio-Chat, a Large Audio Language Model addressing these limitations via two innovations from our previous work DrVoice. First, Dual-Resolution Speech Representations (DRSR): the Shared LLM processes audio at efficient 5Hz (via token grouping), while the Speech Refined Head generates high-quality tokens at 25Hz, balancing efficiency (~50% GPU reduction) and quality. Second, Core-Cocktail Training, a two-stage fine-tuning with intermediate merging that mitigates catastrophic forgetting. We then apply Multi-Task DPO Training to enhance robustness, audio understanding, instruction-following and voice empathy. This multi-stage post-training enables Fun-Audio-Chat to retain text LLM knowledge while gaining powerful audio understanding, reasoning, and generation. Unlike recent LALMs requiring large-scale audio-text pre-training, Fun-Audio-Chat leverages pre-trained models and extensive post-training. Fun-Audio-Chat 8B and MoE 30B-A3B achieve competitive performance on Speech-to-Text and Speech-to-Speech tasks, ranking top among similar-scale models on Spoken QA benchmarks. They also achieve competitive to superior performance on Audio Understanding, Speech Function Calling, Instruction-Following and Voice Empathy. We develop Fun-Audio-Chat-Duplex, a full-duplex variant with strong performance on Spoken QA and full-duplex interactions. We open-source Fun-Audio-Chat-8B with training and inference code, and provide an interactive demo.

Fun-Audio-Chat Technical Report

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册