Spotlight: Identifying and Localizing Video Generation Errors Using VLMs

📄 arXiv: 2511.18102v1 📥 PDF

作者: Aditya Chinchure, Sahithya Ravi, Pushkar Shukla, Vered Shwartz, Leonid Sigal

分类: cs.CV

发布日期: 2025-11-22


💡 一句话要点

Spotlight:利用视觉语言模型识别和定位视频生成错误

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 视频生成 错误定位 视觉语言模型 视频评估 细粒度标注

📋 核心要点

  1. 现有的文本到视频模型评估方法缺乏对视频生成错误进行精确定位和解释的能力,无法提供细粒度的反馈。
  2. 论文提出Spotlight任务,旨在通过标注细粒度的视频生成错误,来定位和解释这些错误,从而弥补现有评估方法的不足。
  3. 实验结果表明,现有的视觉语言模型在Spotlight任务上表现不佳,但通过提出的推理时策略,性能可以显著提升。

📝 摘要(中文)

当前文本到视频(T2V)模型能够生成高质量、时间连贯且视觉上逼真的视频。然而,与前一代T2V模型相比,错误仍然经常发生,并且更加细微和局部。虽然当前的评估范式在不同维度上评估视频模型,但它们通常以整体方式评估视频,而不识别特定错误何时发生或描述其性质。我们通过引入Spotlight来解决这一差距,Spotlight是一项旨在定位和解释视频生成错误的新任务。我们使用200个不同的文本提示和三个最先进的视频生成器(Veo 3、Seedance和LTX-2)生成了600个视频,并标注了超过1600个细粒度错误,涵盖六种类型,包括运动、物理和提示一致性。我们观察到,一致性和物理错误是主要的,并且持续存在于较长的片段中,而外观消失和身体姿势错误则出现在较短的片段中。然后,我们在Spotlight上评估当前的VLM,发现VLM在视频中的错误识别和定位方面明显落后于人类。我们提出了推理时策略来探测当前VLM在我们任务上的极限,将性能提高了近2倍。我们的任务为构建细粒度的评估工具和更复杂的视频生成器奖励模型铺平了道路。

🔬 方法详解

问题定义:论文旨在解决文本到视频生成模型评估中缺乏细粒度错误定位和解释的问题。现有方法通常是整体评估,无法指出具体错误发生的时间和性质,这阻碍了模型的进一步改进。

核心思路:论文的核心思路是构建一个包含详细标注的视频数据集,该数据集不仅标注了视频中存在的错误,还对错误类型进行了细粒度划分,并提供了错误发生的时间位置。通过在这个数据集上评估视觉语言模型(VLM),可以衡量VLM在错误识别和定位方面的能力。

技术框架:Spotlight任务的整体框架包括以下几个步骤:1) 使用不同的文本提示和先进的视频生成器生成视频;2) 对生成的视频进行人工标注,标注六种类型的细粒度错误(运动、物理、提示一致性、外观消失、身体姿势等);3) 使用标注好的数据集评估现有的视觉语言模型;4) 提出推理时策略来提升VLM在错误识别和定位方面的性能。

关键创新:该论文的关键创新在于提出了Spotlight任务,这是一个专门用于评估视频生成模型错误识别和定位能力的数据集和评估框架。与以往的整体评估方法相比,Spotlight能够提供更细粒度的反馈,帮助研究人员更好地理解模型的优缺点。

关键设计:论文的关键设计包括:1) 选择了具有代表性的视频生成模型(Veo 3、Seedance和LTX-2)来生成视频;2) 定义了六种常见的视频生成错误类型,并提供了详细的标注指南;3) 提出了推理时策略,例如通过多次查询和集成结果来提高VLM的性能。此外,数据集的规模(600个视频,1600+错误标注)也保证了评估的可靠性。

📊 实验亮点

实验结果表明,现有的视觉语言模型在Spotlight任务上的表现与人类存在显著差距,表明VLM在细粒度视频错误识别和定位方面仍有很大的提升空间。通过提出的推理时策略,VLM的性能可以提高近2倍,但仍然远低于人类水平,这突显了该领域的研究潜力。

🎯 应用场景

该研究成果可应用于视频生成模型的评估和改进,例如,可以利用Spotlight任务来训练更有效的奖励模型,从而引导视频生成器生成更符合要求的视频。此外,该研究还可以促进视觉语言模型在视频理解方面的研究,并推动相关技术在视频编辑、内容审核等领域的应用。

📄 摘要(原文)

Current text-to-video models (T2V) can generate high-quality, temporally coherent, and visually realistic videos. Nonetheless, errors still often occur, and are more nuanced and local compared to the previous generation of T2V models. While current evaluation paradigms assess video models across diverse dimensions, they typically evaluate videos holistically without identifying when specific errors occur or describing their nature. We address this gap by introducing Spotlight, a novel task aimed at localizing and explaining video-generation errors. We generate 600 videos using 200 diverse textual prompts and three state-of-the-art video generators (Veo 3, Seedance, and LTX-2), and annotate over 1600 fine-grained errors across six types, including motion, physics, and prompt adherence. We observe that adherence and physics errors are predominant and persist across longer segments, whereas appearance-disappearance and body pose errors manifest in shorter segments. We then evaluate current VLMs on Spotlight and find that VLMs lag significantly behind humans in error identification and localization in videos. We propose inference-time strategies to probe the limits of current VLMs on our task, improving performance by nearly 2x. Our task paves a way forward to building fine-grained evaluation tools and more sophisticated reward models for video generators.