FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction
作者: Yuan Ge, Saihan Chen, Jingqi Xiao, Xiaoqian Liu, Tong Xiao, Yan Xiang, Zhengtao Yu, Jingbo Zhu
分类: cs.CL
发布日期: 2025-09-26
💡 一句话要点
FLEXI:首个全双工人机语音交互评测基准,关注紧急情况下的模型中断
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全双工语音交互 人机对话 大语言模型 评测基准 紧急情况处理
📋 核心要点
- 现有全双工语音LLM的评测缺乏对紧急情况处理和模型中断的考量,限制了其在实际场景中的应用。
- FLEXI基准通过模拟紧急场景下的人机交互,评估模型在延迟、质量和会话有效性方面的表现。
- 实验结果表明,开源模型在紧急意识、对话结束和交互延迟方面与商业模型存在显著差距。
📝 摘要(中文)
全双工语音到语音大语言模型(LLMs)是自然人机交互的基础,能够实现实时的口语对话系统。然而,对这些模型进行基准测试和建模仍然是一个根本性的挑战。我们推出了FLEXI,这是首个针对全双工人机口语交互的基准,它明确地将紧急情况下的模型中断纳入考虑。FLEXI通过六个不同的人机交互场景,系统地评估了实时对话的延迟、质量和会话有效性,揭示了开源模型和商业模型在紧急意识、结束对话和交互延迟方面的显著差距。最后,我们认为下一个token对预测为实现真正无缝和类人全双工交互提供了一条有希望的途径。
🔬 方法详解
问题定义:论文旨在解决全双工人机语音交互系统缺乏全面评测基准的问题。现有的评测方法通常忽略了紧急情况下的模型中断,以及模型对实时交互的延迟和质量的考量。这导致无法准确评估模型在实际应用中的性能,尤其是在需要快速响应和处理突发事件的场景下。
核心思路:论文的核心思路是构建一个包含多种人机交互场景的评测基准,特别关注紧急情况下的模型中断。通过模拟真实场景,评估模型在延迟、质量和会话有效性方面的表现,从而全面了解模型的优缺点。此外,论文还提出下一个token对预测可能是一种提升全双工交互流畅性的有效方法。
技术框架:FLEXI基准包含六个不同的人机交互场景,涵盖了日常对话、问题解答、任务执行等多种类型。每个场景都设计了特定的紧急情况,例如用户突然改变话题或提出紧急需求。评测指标包括延迟(例如,响应时间)、质量(例如,语音识别准确率、语义理解准确率)和会话有效性(例如,对话轮数、用户满意度)。
关键创新:FLEXI基准的关键创新在于其对紧急情况下的模型中断的显式建模。传统的评测方法通常假设对话是线性的、无中断的,而FLEXI则考虑了真实场景中可能发生的各种中断情况,从而更准确地评估模型的鲁棒性和适应性。此外,FLEXI还提供了一个统一的评测平台,方便研究人员比较不同模型的性能。
关键设计:FLEXI基准的关键设计包括:1)场景的多样性,涵盖了不同类型的交互任务和紧急情况;2)评测指标的全面性,包括延迟、质量和会话有效性;3)评测流程的标准化,确保不同模型之间的可比性。论文还探讨了使用下一个token对预测来减少延迟和提高流畅性的可能性,但具体的技术细节(例如,损失函数、网络结构)未在摘要中详细说明。
📊 实验亮点
FLEXI基准的实验结果表明,开源模型在紧急意识、对话结束和交互延迟方面与商业模型存在显著差距。例如,在紧急情况下,开源模型的响应时间明显长于商业模型,并且更容易出现理解错误。这些结果突出了开源模型在全双工人机语音交互方面的不足,为未来的研究方向提供了指导。
🎯 应用场景
该研究成果可应用于开发更自然、更智能的语音助手、智能客服、紧急救援系统等。通过FLEXI基准,可以更好地评估和改进全双工语音LLM,使其在实际应用中能够更有效地处理各种复杂情况,提升用户体验和安全性。未来的研究可以进一步探索如何利用下一个token对预测等技术,实现更流畅、更自然的语音交互。
📄 摘要(原文)
Full-Duplex Speech-to-Speech Large Language Models (LLMs) are foundational to natural human-computer interaction, enabling real-time spoken dialogue systems. However, benchmarking and modeling these models remains a fundamental challenge. We introduce FLEXI, the first benchmark for full-duplex LLM-human spoken interaction that explicitly incorporates model interruption in emergency scenarios. FLEXI systematically evaluates the latency, quality, and conversational effectiveness of real-time dialogue through six diverse human-LLM interaction scenarios, revealing significant gaps between open source and commercial models in emergency awareness, turn terminating, and interaction latency. Finally, we suggest that next token-pair prediction offers a promising path toward achieving truly seamless and human-like full-duplex interaction.