LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

作者: Qingkai Fang, Yan Zhou, Shoutao Guo, Shaolei Zhang, Yang Feng

分类: cs.CL, cs.AI, cs.SD, eess.AS

发布日期: 2025-05-05

备注: Preprint. Project: https://github.com/ictnlp/LLaMA-Omni2

💡 一句话要点

提出LLaMA-Omni2以实现实时智能语音聊天机器人

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音交互 大型语言模型 自回归解码 智能聊天机器人 实时语音合成

📋 核心要点

现有的语音聊天机器人在实时性和自然交互方面存在不足，难以满足用户的需求。
LLaMA-Omni 2通过集成语音编码器和自回归流式语音解码器，提供高效的实时语音交互解决方案。
在仅使用20万多轮对话样本的情况下，LLaMA-Omni 2在语音问答和指令跟随任务中超越了之前的最先进模型。

📝 摘要（中文）

实时、智能和自然的语音交互是下一代人机交互的重要组成部分。近期的研究表明，基于大型语言模型（LLMs）构建智能语音聊天机器人的潜力。本文介绍了LLaMA-Omni 2，这是一系列参数从0.5B到14B的语音语言模型（SpeechLMs），能够实现高质量的实时语音交互。LLaMA-Omni 2基于Qwen2.5系列模型，集成了语音编码器和自回归流式语音解码器。尽管仅在20万多轮语音对话样本上进行训练，LLaMA-Omni 2在多个语音问答和语音指令跟随基准测试中表现出色，超越了以数百万小时语音数据训练的GLM-4-Voice等现有最先进的SpeechLMs。

🔬 方法详解

问题定义：本文旨在解决现有语音聊天机器人在实时性和自然交互方面的不足，尤其是在训练数据量有限的情况下，如何实现高效的语音交互。

核心思路：LLaMA-Omni 2通过结合语音编码器与自回归流式解码器，优化了语音生成过程，使其能够在较少的训练数据下仍然实现高质量的语音交互。

技术框架：LLaMA-Omni 2的整体架构包括语音编码器和自回归解码器两个主要模块，前者负责将输入语音转换为特征表示，后者则生成相应的语音输出。

关键创新：LLaMA-Omni 2的最大创新在于其在较少的训练样本下仍能超越传统模型，展示了在有限数据条件下的强大性能，尤其是在语音问答和指令跟随任务中。

关键设计：模型参数设置从0.5B到14B不等，采用了适应性损失函数和优化的网络结构，以提高训练效率和生成质量。

📊 实验亮点

LLaMA-Omni 2在多个语音问答和指令跟随基准测试中表现优异，超越了GLM-4-Voice等最先进模型，展示了在仅使用20万多轮对话样本下的强大性能，体现了其在语音交互领域的显著提升。

🎯 应用场景

LLaMA-Omni 2在智能语音助手、客户服务、教育培训等多个领域具有广泛的应用潜力。其高效的实时语音交互能力能够提升用户体验，推动人机交互的自然化进程，未来可能会在更多智能设备中得到应用。

📄 摘要（原文）

Real-time, intelligent, and natural speech interaction is an essential part of the next-generation human-computer interaction. Recent advancements have showcased the potential of building intelligent spoken chatbots based on large language models (LLMs). In this paper, we introduce LLaMA-Omni 2, a series of speech language models (SpeechLMs) ranging from 0.5B to 14B parameters, capable of achieving high-quality real-time speech interaction. LLaMA-Omni 2 is built upon the Qwen2.5 series models, integrating a speech encoder and an autoregressive streaming speech decoder. Despite being trained on only 200K multi-turn speech dialogue samples, LLaMA-Omni 2 demonstrates strong performance on several spoken question answering and speech instruction following benchmarks, surpassing previous state-of-the-art SpeechLMs like GLM-4-Voice, which was trained on millions of hours of speech data.

LLaMA-Omni2: LLM-based Real-time Spoken Chatbot with Autoregressive Streaming Speech Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册