Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

作者: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu

分类: cs.CV

发布日期: 2025-12-17

备注: Project Page: https://github.com/JoeLeelyf/Skyra

💡 一句话要点

Skyra：通过可信的伪影推理实现AI生成视频检测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI生成视频检测 多模态大语言模型 视觉伪影 可解释性 数据集构建 两阶段训练 时空感知

📋 核心要点

现有AI生成视频检测方法局限于二元分类，缺乏对检测结果的解释性，难以满足实际应用需求。
Skyra通过识别并解释AI生成视频中的视觉伪影，提供可信的检测依据，增强了模型的可解释性。
Skyra在ViF-Bench等基准测试中超越了现有方法，证明了其在AI生成视频检测方面的优越性能。

📝 摘要（中文）

AI视频生成技术的滥用引发了严重的社会问题，因此迫切需要可靠的AI生成视频检测器。然而，现有方法大多局限于二元分类，缺乏必要的人工解释。本文提出了Skyra，一种专门的多模态大型语言模型(MLLM)，用于识别AI生成视频中人类可感知的视觉伪影，并将其作为检测和解释的依据。为了支持这一目标，我们构建了ViF-CoT-4K数据集，这是第一个具有细粒度人工标注的大规模AI生成视频伪影数据集。然后，我们开发了一种两阶段训练策略，系统地增强模型在时空伪影感知、解释能力和检测精度方面的能力。为了全面评估Skyra，我们引入了ViF-Bench，一个包含由十多种最先进的视频生成器生成的高质量样本的基准。大量实验表明，Skyra在多个基准测试中超越了现有方法，同时我们的评估为推进可解释的AI生成视频检测提供了有价值的见解。

🔬 方法详解

问题定义：当前AI生成视频检测方法主要集中于二元分类，即判断视频是否由AI生成。然而，这些方法缺乏可解释性，无法提供人类可理解的证据来支持其判断。这使得用户难以信任检测结果，也限制了这些方法在实际场景中的应用。现有方法难以定位和解释AI生成视频中存在的视觉伪影，例如不自然的纹理、时序上的不一致性等。

核心思路：Skyra的核心思路是利用多模态大型语言模型（MLLM）来识别和解释AI生成视频中的视觉伪影。通过将视频帧和相应的文本描述结合起来，模型可以学习到AI生成视频特有的伪影模式，并生成可信的解释。这种方法不仅可以提高检测的准确性，还可以提供可解释的证据，增强用户对检测结果的信任。

技术框架：Skyra的整体框架包含两个主要阶段：1) 数据集构建：构建大规模AI生成视频伪影数据集ViF-CoT-4K，包含细粒度的人工标注，标注视频中存在的各种视觉伪影。2) 模型训练：采用两阶段训练策略，首先进行有监督微调（SFT），增强模型对时空伪影的感知能力；然后进行指令微调，提高模型的解释能力和检测精度。模型输入为视频帧和文本提示，输出为检测结果和对伪影的解释。

关键创新：Skyra的关键创新在于其利用MLLM进行AI生成视频检测，并提供可解释的检测结果。与传统的二元分类方法不同，Skyra能够识别并解释视频中存在的视觉伪影，从而提供更可信的检测依据。此外，ViF-CoT-4K数据集的构建也为AI生成视频伪影检测提供了新的资源。

关键设计：ViF-CoT-4K数据集包含4K个AI生成视频样本，并对每个样本进行细粒度的人工标注，标注视频中存在的各种视觉伪影，例如不自然的纹理、时序上的不一致性等。两阶段训练策略包括：1) 有监督微调（SFT）：使用ViF-CoT-4K数据集对MLLM进行微调，增强模型对时空伪影的感知能力。2) 指令微调：使用指令数据进一步提高模型的解释能力和检测精度。损失函数包括分类损失和文本生成损失，用于优化模型的检测和解释能力。

🖼️ 关键图片

📊 实验亮点

Skyra在ViF-Bench基准测试中取得了显著的性能提升，超越了现有的AI生成视频检测方法。实验结果表明，Skyra不仅能够准确地检测AI生成视频，还能提供可解释的检测依据，增强了用户对检测结果的信任。此外，Skyra在跨数据集泛化能力方面也表现出色，证明了其在实际应用中的潜力。

🎯 应用场景

Skyra可应用于内容审核、版权保护、虚假信息检测等领域。通过识别AI生成的虚假视频，可以有效防止谣言传播和恶意攻击，维护网络安全和社会稳定。该技术还有助于提高公众对AI生成内容的辨别能力，减少被误导的可能性。未来，Skyra可以集成到各种在线平台和应用中，为用户提供可靠的AI生成视频检测服务。

📄 摘要（原文）

The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.

Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册