Unleashing Hour-Scale Video Training for Long Video-Language Understanding

📄 arXiv: 2506.05332v2 📥 PDF

作者: Jingyang Lin, Jialian Wu, Ximeng Sun, Ze Wang, Jiang Liu, Yusheng Su, Xiaodong Yu, Hao Chen, Jiebo Luo, Zicheng Liu, Emad Barsoum

分类: cs.CV, cs.CL

发布日期: 2025-06-05 (更新: 2025-12-01)

备注: NeurIPS 2025, Project page: https://videomarathon.github.io/


💡 一句话要点

提出VideoMarathon数据集以解决长视频语言理解训练不足问题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 视频语言模型 多模态学习 数据集构建 内存增强 问答系统 视频理解任务

📋 核心要点

  1. 现有长视频语言理解方法受限于缺乏高质量的长视频数据集,导致训练效果不佳。
  2. 本文提出VideoMarathon数据集,包含9700小时的长视频和330万个高质量问答对,支持多种视频理解任务。
  3. Hour-LLaVA模型在多个长视频语言基准上表现优异,验证了VideoMarathon数据集的高质量和Hour-LLaVA模型的优势。

📝 摘要(中文)

近年来,长视频语言理解基准推动了视频大规模多模态模型(Video-LMMs)的进展。然而,缺乏良好注释的长视频使得小时级Video-LMMs的训练尚未得到充分探索。为填补这一空白,本文提出了VideoMarathon,一个大规模的小时级视频指令跟随数据集,包含约9700小时的长视频,视频时长从3到60分钟不等。该数据集包含330万个高质量的问答对,涵盖六个基本主题:时间性、空间性、物体、动作、场景和事件。与现有视频指令数据集相比,VideoMarathon显著扩展了训练视频的时长,并支持22种需要短期和长期视频理解的多样任务。基于VideoMarathon,本文提出了Hour-LLaVA,一个强大且高效的小时级视频语言模型,能够以1-FPS的采样率进行小时级视频训练和推理。

🔬 方法详解

问题定义:本研究旨在解决长视频语言理解中缺乏高质量长视频数据集的问题。现有方法通常依赖于短视频,导致模型在处理长视频时性能不足。

核心思路:提出VideoMarathon数据集,包含大量长视频及高质量问答对,以支持长视频语言理解的训练。同时,设计Hour-LLaVA模型,利用内存增强模块进行高效的视频语言建模。

技术框架:Hour-LLaVA模型的整体架构包括视频输入模块、内存增强模块和语言理解模块。视频输入模块负责处理长视频,内存增强模块则整合相关语义信息,最后语言理解模块进行推理和输出。

关键创新:最重要的创新在于VideoMarathon数据集的构建和Hour-LLaVA模型的设计。与现有方法相比,Hour-LLaVA能够在1-FPS的采样率下进行高效推理,显著提升了长视频理解的能力。

关键设计:Hour-LLaVA模型采用了适应性内存增强机制,能够动态整合问题相关的时空信息。此外,模型的损失函数和网络结构经过精心设计,以优化长视频的理解效果。

📊 实验亮点

在实验中,Hour-LLaVA模型在多个长视频语言基准上取得了最佳性能,验证了VideoMarathon数据集的高质量。具体而言,Hour-LLaVA在某些任务上相较于基线模型提升了超过10%的准确率,显示出其在长视频理解中的显著优势。

🎯 应用场景

该研究的潜在应用领域包括视频内容检索、智能监控、教育视频分析等。通过提升长视频理解能力,能够为用户提供更精准的信息检索和内容推荐,具有重要的实际价值和未来影响。

📄 摘要(原文)

Recent long-form video-language understanding benchmarks have driven progress in video large multimodal models (Video-LMMs). However, the scarcity of well-annotated long videos has left the training of hour-long Video-LMMs underexplored. To close this gap, we present VideoMarathon, a large-scale hour-long video instruction-following dataset. This dataset includes around 9,700 hours of long videos sourced from diverse domains, ranging from 3 to 60 minutes per video. Specifically, it contains 3.3M high-quality QA pairs, spanning six fundamental topics: temporality, spatiality, object, action, scene, and event. Compared to existing video instruction datasets, VideoMarathon significantly extends training video durations up to 1 hour, and supports 22 diverse tasks requiring both short- and long-term video comprehension. Building on VideoMarathon, we propose Hour-LLaVA, a powerful and efficient Video-LMM for hour-scale video-language modeling. It enables hour-long video training and inference at 1-FPS sampling by leveraging a memory augmentation module, which adaptively integrates question-relevant and spatiotemporally informative semantics from the cached full video context. In our experiments, Hour-LLaVA achieves the best performance on multiple representative long video-language benchmarks, demonstrating the high quality of the VideoMarathon dataset and the superiority of the Hour-LLaVA model.