Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning
作者: Yifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu
分类: cs.CV
发布日期: 2025-12-17
备注: Project Page: https://github.com/JoeLeelyf/Skyra
💡 一句话要点
Skyra:通过可信的伪影推理实现AI生成视频检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI生成视频检测 多模态大语言模型 视觉伪影 可解释性 数据集构建 两阶段训练 时空感知
📋 核心要点
- 现有AI生成视频检测方法局限于二元分类,缺乏对检测结果的解释性,难以满足实际应用需求。
- Skyra通过识别并解释AI生成视频中的视觉伪影,提供可信的检测依据,增强了模型的可解释性。
- Skyra在ViF-Bench等基准测试中超越了现有方法,证明了其在AI生成视频检测方面的优越性能。
📝 摘要(中文)
AI视频生成技术的滥用引发了严重的社会问题,因此迫切需要可靠的AI生成视频检测器。然而,现有方法大多局限于二元分类,缺乏必要的人工解释。本文提出了Skyra,一种专门的多模态大型语言模型(MLLM),用于识别AI生成视频中人类可感知的视觉伪影,并将其作为检测和解释的依据。为了支持这一目标,我们构建了ViF-CoT-4K数据集,这是第一个具有细粒度人工标注的大规模AI生成视频伪影数据集。然后,我们开发了一种两阶段训练策略,系统地增强模型在时空伪影感知、解释能力和检测精度方面的能力。为了全面评估Skyra,我们引入了ViF-Bench,一个包含由十多种最先进的视频生成器生成的高质量样本的基准。大量实验表明,Skyra在多个基准测试中超越了现有方法,同时我们的评估为推进可解释的AI生成视频检测提供了有价值的见解。
🔬 方法详解
问题定义:当前AI生成视频检测方法主要集中于二元分类,即判断视频是否由AI生成。然而,这些方法缺乏可解释性,无法提供人类可理解的证据来支持其判断。这使得用户难以信任检测结果,也限制了这些方法在实际场景中的应用。现有方法难以定位和解释AI生成视频中存在的视觉伪影,例如不自然的纹理、时序上的不一致性等。
核心思路:Skyra的核心思路是利用多模态大型语言模型(MLLM)来识别和解释AI生成视频中的视觉伪影。通过将视频帧和相应的文本描述结合起来,模型可以学习到AI生成视频特有的伪影模式,并生成可信的解释。这种方法不仅可以提高检测的准确性,还可以提供可解释的证据,增强用户对检测结果的信任。
技术框架:Skyra的整体框架包含两个主要阶段:1) 数据集构建:构建大规模AI生成视频伪影数据集ViF-CoT-4K,包含细粒度的人工标注,标注视频中存在的各种视觉伪影。2) 模型训练:采用两阶段训练策略,首先进行有监督微调(SFT),增强模型对时空伪影的感知能力;然后进行指令微调,提高模型的解释能力和检测精度。模型输入为视频帧和文本提示,输出为检测结果和对伪影的解释。
关键创新:Skyra的关键创新在于其利用MLLM进行AI生成视频检测,并提供可解释的检测结果。与传统的二元分类方法不同,Skyra能够识别并解释视频中存在的视觉伪影,从而提供更可信的检测依据。此外,ViF-CoT-4K数据集的构建也为AI生成视频伪影检测提供了新的资源。
关键设计:ViF-CoT-4K数据集包含4K个AI生成视频样本,并对每个样本进行细粒度的人工标注,标注视频中存在的各种视觉伪影,例如不自然的纹理、时序上的不一致性等。两阶段训练策略包括:1) 有监督微调(SFT):使用ViF-CoT-4K数据集对MLLM进行微调,增强模型对时空伪影的感知能力。2) 指令微调:使用指令数据进一步提高模型的解释能力和检测精度。损失函数包括分类损失和文本生成损失,用于优化模型的检测和解释能力。
🖼️ 关键图片
📊 实验亮点
Skyra在ViF-Bench基准测试中取得了显著的性能提升,超越了现有的AI生成视频检测方法。实验结果表明,Skyra不仅能够准确地检测AI生成视频,还能提供可解释的检测依据,增强了用户对检测结果的信任。此外,Skyra在跨数据集泛化能力方面也表现出色,证明了其在实际应用中的潜力。
🎯 应用场景
Skyra可应用于内容审核、版权保护、虚假信息检测等领域。通过识别AI生成的虚假视频,可以有效防止谣言传播和恶意攻击,维护网络安全和社会稳定。该技术还有助于提高公众对AI生成内容的辨别能力,减少被误导的可能性。未来,Skyra可以集成到各种在线平台和应用中,为用户提供可靠的AI生成视频检测服务。
📄 摘要(原文)
The misuse of AI-driven video generation technologies has raised serious social concerns, highlighting the urgent need for reliable AI-generated video detectors. However, most existing methods are limited to binary classification and lack the necessary explanations for human interpretation. In this paper, we present Skyra, a specialized multimodal large language model (MLLM) that identifies human-perceivable visual artifacts in AI-generated videos and leverages them as grounded evidence for both detection and explanation. To support this objective, we construct ViF-CoT-4K for Supervised Fine-Tuning (SFT), which represents the first large-scale AI-generated video artifact dataset with fine-grained human annotations. We then develop a two-stage training strategy that systematically enhances our model's spatio-temporal artifact perception, explanation capability, and detection accuracy. To comprehensively evaluate Skyra, we introduce ViF-Bench, a benchmark comprising 3K high-quality samples generated by over ten state-of-the-art video generators. Extensive experiments demonstrate that Skyra surpasses existing methods across multiple benchmarks, while our evaluation yields valuable insights for advancing explainable AI-generated video detection.