CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models

📄 arXiv: 2601.04778v1 📥 PDF

作者: Tobia Poppi, Burak Uzkent, Amanmeet Garg, Lucas Porto, Garin Kessler, Yezhou Yang, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara, Florian Schiffers

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2026-01-08


💡 一句话要点

提出CounterVid框架,通过对抗视频生成缓解视频语言模型中的动作和时间幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频语言模型 对抗视频生成 幻觉缓解 时间推理 动作识别 直接偏好优化 多模态学习

📋 核心要点

  1. 视频语言模型易受动作和时间幻觉影响,现有方法过度依赖语言先验,忽略了细粒度视觉动态。
  2. 论文提出CounterVid框架,通过生成在动作或时间结构上不同的对抗视频,增强模型对视觉信息的关注。
  3. 通过MixDPO微调Qwen2.5-VL,在时间排序方面取得显著提升,并在视频幻觉基准测试中表现出良好的泛化能力。

📝 摘要(中文)

视频语言模型(VLMs)在多模态理解方面表现出色,但仍然容易产生幻觉,尤其是在推理动作和时间顺序时。现有的缓解策略,如文本过滤或随机视频扰动,通常无法解决根本原因:过度依赖语言先验而不是细粒度的视觉动态。我们提出了一个可扩展的对抗视频生成框架,该框架合成仅在动作或时间结构上不同的视频,同时保留场景上下文。我们的流程结合了多模态LLM用于动作提议和编辑指导,以及基于扩散的图像和视频模型,以大规模生成语义硬负样本。使用此框架,我们构建了CounterVid,一个包含约26k个偏好对的合成数据集,目标是动作识别和时间推理。我们进一步引入了MixDPO,一种统一的直接偏好优化方法,可以联合利用文本和视觉偏好。使用MixDPO微调Qwen2.5-VL可以产生一致的改进,尤其是在时间排序方面,并有效地转移到标准视频幻觉基准测试中。代码和模型将公开提供。

🔬 方法详解

问题定义:视频语言模型在理解视频内容时,容易产生幻觉,尤其是在动作识别和时间推理方面。现有方法,如文本过滤和随机视频扰动,无法有效解决问题,因为它们没有解决模型过度依赖语言先验,而忽略了视频中的细粒度视觉动态的根本原因。

核心思路:论文的核心思路是通过生成对抗视频来训练模型,这些对抗视频与原始视频在动作或时间结构上有所不同,但场景上下文保持不变。通过这种方式,模型可以学习区分细微的视觉差异,从而减少对语言先验的依赖,提高对视频内容的理解能力。

技术框架:CounterVid框架包含以下几个主要模块:1) 使用多模态LLM进行动作提议,确定需要修改的动作;2) 使用多模态LLM进行编辑指导,生成修改动作的文本描述;3) 使用基于扩散的图像和视频模型,根据文本描述生成对抗视频;4) 构建包含原始视频和对抗视频的偏好对数据集;5) 使用MixDPO方法,联合利用文本和视觉偏好,对视频语言模型进行微调。

关键创新:论文的关键创新在于提出了一个可扩展的对抗视频生成框架,该框架可以大规模生成语义硬负样本,用于训练视频语言模型。此外,论文还提出了MixDPO方法,该方法可以联合利用文本和视觉偏好,从而更好地训练视频语言模型。与现有方法相比,CounterVid框架更加关注视频中的视觉动态,可以更有效地缓解视频语言模型中的幻觉问题。

关键设计:在对抗视频生成过程中,论文使用了多模态LLM来指导动作编辑,确保生成的对抗视频在语义上是合理的。此外,论文还使用了基于扩散的图像和视频模型,可以生成高质量的对抗视频。在MixDPO方法中,论文使用了文本和视觉偏好的加权组合,以平衡文本和视觉信息对模型训练的影响。具体的权重参数设置未知。

📊 实验亮点

通过在Qwen2.5-VL模型上使用MixDPO进行微调,该方法在时间排序任务上取得了显著的改进。实验结果表明,该方法能够有效地缓解视频语言模型中的幻觉问题,并且具有良好的泛化能力,可以应用于标准的视频幻觉基准测试。

🎯 应用场景

该研究成果可应用于提升视频内容理解的准确性和可靠性,例如在视频搜索、视频摘要、视频问答等领域。通过减少视频语言模型中的幻觉,可以提高这些应用的用户体验和实用价值。未来,该技术还可能应用于自动驾驶、机器人导航等需要精确视觉理解的领域。

📄 摘要(原文)

Video-language models (VLMs) achieve strong multimodal understanding but remain prone to hallucinations, especially when reasoning about actions and temporal order. Existing mitigation strategies, such as textual filtering or random video perturbations, often fail to address the root cause: over-reliance on language priors rather than fine-grained visual dynamics. We propose a scalable framework for counterfactual video generation that synthesizes videos differing only in actions or temporal structure while preserving scene context. Our pipeline combines multimodal LLMs for action proposal and editing guidance with diffusion-based image and video models to generate semantic hard negatives at scale. Using this framework, we build CounterVid, a synthetic dataset of ~26k preference pairs targeting action recognition and temporal reasoning. We further introduce MixDPO, a unified Direct Preference Optimization approach that jointly leverages textual and visual preferences. Fine-tuning Qwen2.5-VL with MixDPO yields consistent improvements, notably in temporal ordering, and transfers effectively to standard video hallucination benchmarks. Code and models will be made publicly available.