Game-Time: Evaluating Temporal Dynamics in Spoken Language Models
作者: Kai-Wei Chang, En-Pei Hu, Chun-Yi Kuan, Wenze Ren, Wei-Chih Chen, Guan-Ting Lin, Yu Tsao, Shao-Hua Sun, Hung-yi Lee, James Glass
分类: eess.AS, cs.AI, cs.CL
发布日期: 2025-09-30
备注: submitted to ICASSP 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Game-Time基准,评估会话语音语言模型的时间动态性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音语言模型 时间动态性 会话AI 基准测试 指令跟随
📋 核心要点
- 现有的会话语音语言模型在时间动态性方面存在不足,尤其是在处理时序、节奏和同步说话等复杂场景时。
- Game-Time基准通过模拟人类语言学习活动,设计了包含时间约束的指令跟随任务,以系统评估模型的时间感知能力。
- 实验结果表明,现有模型在基本任务上表现良好,但在时间约束下性能显著下降,揭示了模型在时间感知和全双工交互方面的弱点。
📝 摘要(中文)
会话式语音语言模型(SLM)正成为实时语音交互的一种有前景的范例。然而,它们的时间动态能力,包括管理时序、节奏和同步说话的能力,仍然是会话流畅性的一个关键且未被评估的挑战。为了解决这一差距,我们引入了Game-Time基准,这是一个系统地评估这些时间能力的框架。受到人类通过语言活动学习语言的启发,Game-Time由基本的指令跟随任务和具有时间约束的高级任务组成,例如节奏遵守和同步响应。我们对各种SLM架构的评估揭示了明显的性能差异:虽然最先进的模型能够很好地处理基本任务,但许多当代系统仍然难以完成基本的指令跟随。更关键的是,几乎所有模型在时间约束下都会大幅下降,暴露了时间感知和全双工交互方面的持续弱点。Game-Time基准为指导未来研究朝着更具时间意识的会话AI奠定了基础。演示和数据集可在我们的项目网站https://ga642381.github.io/Game-Time上找到。
🔬 方法详解
问题定义:现有会话语音语言模型(SLM)在处理时间动态性方面存在不足。具体来说,模型难以准确理解和执行与时间相关的指令,例如控制语速、同步响应等。这严重影响了会话的流畅性和自然性。现有评估方法缺乏对这些时间能力的系统性测试。
核心思路:Game-Time基准的核心思路是模拟人类通过语言活动学习语言的过程,设计一系列包含时间约束的指令跟随任务。通过这些任务,可以系统地评估SLM在时间感知、节奏控制和同步交互方面的能力。这种方法更贴近真实的人机交互场景。
技术框架:Game-Time基准包含两类任务:基本指令跟随任务和高级时间约束任务。基本任务验证模型的基本理解能力,高级任务则引入时间约束,例如要求模型以特定节奏响应或与其他模型同步交互。整个框架提供了一套标准化的评估流程和指标,用于衡量SLM的时间动态性能。
关键创新:Game-Time基准的关键创新在于其对时间动态性的关注和系统性的评估方法。它首次将时间感知、节奏控制和同步交互等因素纳入SLM的评估体系中,并设计了相应的任务来量化这些能力。这为未来的研究提供了新的方向。
关键设计:Game-Time基准的关键设计包括任务的设计和评估指标的选择。任务设计需要保证既能测试模型的基本理解能力,又能有效引入时间约束。评估指标需要能够准确反映模型在时间感知、节奏控制和同步交互方面的性能。具体参数设置和网络结构的选择取决于被评估的SLM模型。
📊 实验亮点
实验结果表明,现有最先进的SLM模型在基本指令跟随任务上表现良好,但在时间约束任务上性能显著下降。例如,模型在节奏遵守和同步响应方面的准确率明显低于基本任务。这表明现有模型在时间感知和全双工交互方面存在明显的弱点,需要进一步改进。Game-Time基准为量化这些弱点提供了有效的工具。
🎯 应用场景
Game-Time基准的潜在应用领域包括智能助手、人机协作机器人、在线教育等。通过提升SLM的时间动态性,可以使这些应用更加自然、流畅和高效。例如,智能助手可以更好地理解用户的语速和节奏,从而提供更个性化的服务。人机协作机器人可以更准确地与人类同步工作,提高协作效率。该研究为未来开发更智能、更自然的会话式AI系统奠定了基础。
📄 摘要(原文)
Conversational Spoken Language Models (SLMs) are emerging as a promising paradigm for real-time speech interaction. However, their capacity of temporal dynamics, including the ability to manage timing, tempo and simultaneous speaking, remains a critical and unevaluated challenge for conversational fluency. To address this gap, we introduce the Game-Time Benchmark, a framework to systematically assess these temporal capabilities. Inspired by how humans learn a language through language activities, Game-Time consists of basic instruction-following tasks and advanced tasks with temporal constraints, such as tempo adherence and synchronized responses. Our evaluation of diverse SLM architectures reveals a clear performance disparity: while state-of-the-art models handle basic tasks well, many contemporary systems still struggle with fundamental instruction-following. More critically, nearly all models degrade substantially under temporal constraints, exposing persistent weaknesses in time awareness and full-duplex interaction. The Game-Time Benchmark provides a foundation for guiding future research toward more temporally-aware conversational AI. Demos and datasets are available on our project website https://ga642381.github.io/Game-Time.