Real-Time Generation of Game Video Commentary with Multimodal LLMs: Pause-Aware Decoding Approaches

📄 arXiv: 2603.02655v1 📥 PDF

作者: Anum Afzal, Yuki Saito, Hiroya Takamura, Katsuhito Sudoh, Shinnosuke Takamichi, Graham Neubig, Florian Matthes, Tatsuya Ishigaki

分类: cs.CL, cs.AI

发布日期: 2026-03-03

备注: Accepted at LREC2026


💡 一句话要点

提出基于多模态LLM的暂停感知解码方法,实现游戏视频实时解说生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 实时解说生成 多模态LLM 暂停感知解码 动态间隔解码 视频理解

📋 核心要点

  1. 现有视频解说生成方法忽略了解说时机,导致生成的解说与视频内容不同步。
  2. 提出动态间隔解码方法,利用多模态LLM,根据前一句解说时长调整下一句的生成时机。
  3. 实验表明,该方法生成的解说在时机和内容上更接近人类解说,无需额外微调。

📝 摘要(中文)

本文研究了如何利用多模态大型语言模型(MLLM)实时生成游戏视频解说,旨在为体育、电竞和直播等领域提供更好的可访问性和互动性。现有的基于提示的方法在内容生成方面表现出色,但忽略了解说时机这一重要因素。本文探索了仅使用上下文提示是否能实现语义相关且时机恰当的实时解说生成。为此,提出了两种基于提示的解码策略:固定间隔方法和动态间隔方法,后者根据前一句的估计时长调整下一次预测的时机。这两种方法无需微调即可实现暂停感知生成。在赛车和格斗游戏的日语和英语数据集上的实验表明,动态间隔解码方法能够生成与人类解说时机和内容更紧密对齐的解说。同时,发布了一个多语言基准数据集、训练模型和实现代码,以支持未来对实时视频解说生成的研究。

🔬 方法详解

问题定义:论文旨在解决游戏视频实时解说生成中的时机控制问题。现有基于多模态大型语言模型(MLLM)的方法主要关注解说内容的准确性,而忽略了解说发生的时机,导致生成的解说与视频事件不同步,影响用户体验。现有方法缺乏对视频中暂停和事件节奏的感知能力。

核心思路:论文的核心思路是利用多模态LLM的上下文学习能力,通过设计合适的提示(prompt)和解码策略,使模型能够感知视频中的暂停并根据前一句解说的时长动态调整下一句解说的生成时机。这种方法无需对模型进行微调,而是通过巧妙的提示工程来实现时机控制。

技术框架:整体框架包括视频帧输入、多模态LLM、解码策略和解说文本输出四个主要部分。视频帧作为视觉输入,与文本提示一起输入到多模态LLM中。解码策略负责控制解说的生成时机。论文提出了两种解码策略:固定间隔解码和动态间隔解码。固定间隔解码按照预设的时间间隔生成解说,而动态间隔解码则根据前一句解说的估计时长动态调整下一个时间间隔。最终,模型生成解说文本。

关键创新:论文的关键创新在于提出了动态间隔解码策略。与固定间隔解码相比,动态间隔解码能够更好地模拟人类解说的习惯,即在关键事件发生后立即进行解说,而在事件间隙则保持沉默。这种动态调整解说时机的方法能够显著提高解说的自然度和用户体验。

关键设计:动态间隔解码的关键设计在于如何估计前一句解说的时长。论文采用了一种简单而有效的方法,即使用一个预训练的文本时长预测模型来估计前一句解说的时长。然后,将该时长作为下一个时间间隔的基准,并根据实际情况进行微调。此外,论文还设计了合适的提示,包括视频帧的描述、上下文信息和解说风格等,以引导模型生成高质量的解说。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,动态间隔解码方法在赛车和格斗游戏的日语和英语数据集上均优于固定间隔解码方法。动态间隔解码方法生成的解说在时机和内容上更接近人类解说,能够更好地捕捉视频中的关键事件。具体性能提升数据未知,但论文强调了动态间隔解码在时机对齐方面的优势。

🎯 应用场景

该研究成果可应用于游戏直播、电竞赛事解说、体育赛事解说等领域,为观众提供更具沉浸感和互动性的观看体验。此外,该技术还可用于辅助视频内容创作,例如自动生成视频摘要和解说,提高内容生产效率。未来,该技术有望扩展到其他类型的视频内容,例如教育视频和新闻视频。

📄 摘要(原文)

Real-time video commentary generation provides textual descriptions of ongoing events in videos. It supports accessibility and engagement in domains such as sports, esports, and livestreaming. Commentary generation involves two essential decisions: what to say and when to say it. While recent prompting-based approaches using multimodal large language models (MLLMs) have shown strong performance in content generation, they largely ignore the timing aspect. We investigate whether in-context prompting alone can support real-time commentary generation that is both semantically relevant and well-timed. We propose two prompting-based decoding strategies: 1) a fixed-interval approach, and 2) a novel dynamic interval-based decoding approach that adjusts the next prediction timing based on the estimated duration of the previous utterance. Both methods enable pause-aware generation without any fine-tuning. Experiments on Japanese and English datasets of racing and fighting games show that the dynamic interval-based decoding can generate commentary more closely aligned with human utterance timing and content using prompting alone. We release a multilingual benchmark dataset, trained models, and implementations to support future research on real-time video commentary generation.