FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction

作者: Yuan Ge, Saihan Chen, Jingqi Xiao, Xiaoqian Liu, Tong Xiao, Yan Xiang, Zhengtao Yu, Jingbo Zhu

分类: cs.CL

发布日期: 2025-09-26

💡 一句话要点

FLEXI：首个全双工人机语音交互评测基准，关注紧急情况下的模型中断

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 全双工语音交互 人机对话 大语言模型 评测基准 紧急情况处理

📋 核心要点

现有全双工语音LLM的评测缺乏对紧急情况处理和模型中断的考量，限制了其在实际场景中的应用。
FLEXI基准通过模拟紧急场景下的人机交互，评估模型在延迟、质量和会话有效性方面的表现。
实验结果表明，开源模型在紧急意识、对话结束和交互延迟方面与商业模型存在显著差距。

📝 摘要（中文）

全双工语音到语音大语言模型（LLMs）是自然人机交互的基础，能够实现实时的口语对话系统。然而，对这些模型进行基准测试和建模仍然是一个根本性的挑战。我们推出了FLEXI，这是首个针对全双工人机口语交互的基准，它明确地将紧急情况下的模型中断纳入考虑。FLEXI通过六个不同的人机交互场景，系统地评估了实时对话的延迟、质量和会话有效性，揭示了开源模型和商业模型在紧急意识、结束对话和交互延迟方面的显著差距。最后，我们认为下一个token对预测为实现真正无缝和类人全双工交互提供了一条有希望的途径。

🔬 方法详解

问题定义：论文旨在解决全双工人机语音交互系统缺乏全面评测基准的问题。现有的评测方法通常忽略了紧急情况下的模型中断，以及模型对实时交互的延迟和质量的考量。这导致无法准确评估模型在实际应用中的性能，尤其是在需要快速响应和处理突发事件的场景下。

核心思路：论文的核心思路是构建一个包含多种人机交互场景的评测基准，特别关注紧急情况下的模型中断。通过模拟真实场景，评估模型在延迟、质量和会话有效性方面的表现，从而全面了解模型的优缺点。此外，论文还提出下一个token对预测可能是一种提升全双工交互流畅性的有效方法。

技术框架：FLEXI基准包含六个不同的人机交互场景，涵盖了日常对话、问题解答、任务执行等多种类型。每个场景都设计了特定的紧急情况，例如用户突然改变话题或提出紧急需求。评测指标包括延迟（例如，响应时间）、质量（例如，语音识别准确率、语义理解准确率）和会话有效性（例如，对话轮数、用户满意度）。

关键创新：FLEXI基准的关键创新在于其对紧急情况下的模型中断的显式建模。传统的评测方法通常假设对话是线性的、无中断的，而FLEXI则考虑了真实场景中可能发生的各种中断情况，从而更准确地评估模型的鲁棒性和适应性。此外，FLEXI还提供了一个统一的评测平台，方便研究人员比较不同模型的性能。

关键设计：FLEXI基准的关键设计包括：1）场景的多样性，涵盖了不同类型的交互任务和紧急情况；2）评测指标的全面性，包括延迟、质量和会话有效性；3）评测流程的标准化，确保不同模型之间的可比性。论文还探讨了使用下一个token对预测来减少延迟和提高流畅性的可能性，但具体的技术细节（例如，损失函数、网络结构）未在摘要中详细说明。

📊 实验亮点

FLEXI基准的实验结果表明，开源模型在紧急意识、对话结束和交互延迟方面与商业模型存在显著差距。例如，在紧急情况下，开源模型的响应时间明显长于商业模型，并且更容易出现理解错误。这些结果突出了开源模型在全双工人机语音交互方面的不足，为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于开发更自然、更智能的语音助手、智能客服、紧急救援系统等。通过FLEXI基准，可以更好地评估和改进全双工语音LLM，使其在实际应用中能够更有效地处理各种复杂情况，提升用户体验和安全性。未来的研究可以进一步探索如何利用下一个token对预测等技术，实现更流畅、更自然的语音交互。

📄 摘要（原文）

Full-Duplex Speech-to-Speech Large Language Models (LLMs) are foundational to natural human-computer interaction, enabling real-time spoken dialogue systems. However, benchmarking and modeling these models remains a fundamental challenge. We introduce FLEXI, the first benchmark for full-duplex LLM-human spoken interaction that explicitly incorporates model interruption in emergency scenarios. FLEXI systematically evaluates the latency, quality, and conversational effectiveness of real-time dialogue through six diverse human-LLM interaction scenarios, revealing significant gaps between open source and commercial models in emergency awareness, turn terminating, and interaction latency. Finally, we suggest that next token-pair prediction offers a promising path toward achieving truly seamless and human-like full-duplex interaction.

FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册