MVP: Enhancing Video Large Language Models via Self-supervised Masked Video Prediction

作者: Xiaokun Sun, Zezhong Wu, Zewen Ding, Linli Xu

分类: cs.CV

发布日期: 2026-01-07

💡 一句话要点

提出MVP：通过自监督掩码视频预测增强视频大语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 自监督学习 掩码视频预测 时间推理 因果理解

📋 核心要点

现有VideoLLM后训练方法侧重整体内容理解，忽略了视频内在的时间连贯性和帧间相关性。
提出掩码视频预测（MVP）作为后训练目标，迫使模型关注视频的顺序逻辑和时间上下文。
通过可扩展的数据合成流程和群相对策略优化（GRPO），MVP增强了模型的时间推理和因果理解能力。

📝 摘要（中文）

基于强化学习的视频大语言模型（VideoLLM）后训练范式在字幕生成或视频问答等视觉语义任务中取得了显著成功。然而，这些方法主要针对整体内容理解，缺乏对内在时间连贯性和帧间相关性的显式监督，从而限制了模型捕捉复杂动态和细粒度视觉因果关系的能力。为了弥补这一差距，我们提出了一种新的后训练目标：掩码视频预测（MVP）。通过要求模型从一组具有挑战性的干扰项中重建被掩盖的连续片段，MVP迫使模型关注事件的顺序逻辑和时间上下文。为了支持可扩展的训练，我们引入了一个可扩展的数据合成流程，能够将任意视频语料库转换为MVP训练样本，并进一步采用具有细粒度奖励函数的群相对策略优化（GRPO），以增强模型对视频上下文和时间属性的理解。综合评估表明，MVP通过直接加强时间推理和因果理解来增强视频推理能力。

🔬 方法详解

问题定义：现有基于强化学习的VideoLLM后训练方法，虽然在视觉语义任务上表现出色，但缺乏对视频内在时间连贯性和帧间相关性的显式建模。这导致模型难以捕捉视频中的复杂动态和细粒度视觉因果关系，限制了其视频推理能力。

核心思路：论文的核心思路是通过引入一个自监督的掩码视频预测（MVP）任务，迫使模型学习视频的时间上下文信息。具体来说，模型需要根据未被遮盖的视频片段，预测被遮盖的片段，从而学习视频帧之间的依赖关系和时间演变规律。

技术框架：整体框架包含三个主要部分：1) 可扩展的数据合成流程，用于生成MVP训练样本；2) MVP模型，负责根据未遮盖的视频片段预测被遮盖的片段；3) 群相对策略优化（GRPO），用于优化MVP模型的性能。数据合成流程将任意视频语料库转换为MVP训练样本。MVP模型可以是任何VideoLLM，通过最小化预测误差进行训练。GRPO使用细粒度的奖励函数，鼓励模型更好地理解视频上下文和时间属性。

关键创新：最重要的创新点在于提出了掩码视频预测（MVP）作为一种自监督的后训练目标，显式地增强了VideoLLM对视频时间信息的理解。与现有方法相比，MVP不需要人工标注，可以利用大量的无标签视频数据进行训练，从而提高模型的泛化能力。

关键设计：数据合成流程的关键在于生成具有挑战性的干扰项，迫使模型关注视频的顺序逻辑和时间上下文。GRPO的关键在于设计细粒度的奖励函数，鼓励模型更好地理解视频上下文和时间属性。具体的参数设置、损失函数和网络结构等细节在论文中进行了详细描述，此处不再赘述。

📊 实验亮点

实验结果表明，MVP能够显著提升VideoLLM的视频推理能力。通过在多个视频数据集上进行评估，证明了MVP在时间推理和因果理解方面的有效性。具体的性能提升数据在论文中进行了详细展示，与现有基线方法相比，MVP取得了显著的优势。

🎯 应用场景

该研究成果可应用于视频内容理解、视频编辑、智能监控、自动驾驶等领域。通过增强模型对视频时间信息的理解，可以提高视频分析的准确性和效率，例如更准确地识别视频中的事件、预测视频的未来发展趋势等。未来，该方法有望推动视频智能技术的进一步发展。

📄 摘要（原文）

Reinforcement learning based post-training paradigms for Video Large Language Models (VideoLLMs) have achieved significant success by optimizing for visual-semantic tasks such as captioning or VideoQA. However, while these approaches effectively enhance perception abilities, they primarily target holistic content understanding, often lacking explicit supervision for intrinsic temporal coherence and inter-frame correlations. This tendency limits the models' ability to capture intricate dynamics and fine-grained visual causality. To explicitly bridge this gap, we propose a novel post-training objective: Masked Video Prediction (MVP). By requiring the model to reconstruct a masked continuous segment from a set of challenging distractors, MVP forces the model to attend to the sequential logic and temporal context of events. To support scalable training, we introduce a scalable data synthesis pipeline capable of transforming arbitrary video corpora into MVP training samples, and further employ Group Relative Policy Optimization (GRPO) with a fine-grained reward function to enhance the model's understanding of video context and temporal properties. Comprehensive evaluations demonstrate that MVP enhances video reasoning capabilities by directly reinforcing temporal reasoning and causal understanding.

MVP: Enhancing Video Large Language Models via Self-supervised Masked Video Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册