TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding

📄 arXiv: 2508.04369v4 📥 PDF

作者: Canhui Tang, Zifan Han, Hongbo Sun, Sanping Zhou, Xuchong Zhang, Xin Wei, Ye Yuan, Huayu Zhang, Jinglin Xu, Hao Sun

分类: cs.CV

发布日期: 2025-08-06 (更新: 2025-11-13)

备注: Accepted by AAAI 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出TSPO以解决长视频语言理解中的采样问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 时间采样 多模态学习 强化学习 关键帧选择 语言生成 事件感知

📋 核心要点

  1. 现有的多模态大型语言模型在处理长视频时面临上下文限制和训练成本高的问题,导致稀疏帧采样的困难。
  2. 本文提出了时间采样策略优化(TSPO),通过强化学习实现关键帧选择与语言生成的联合决策,提升长视频理解能力。
  3. 实验结果显示,TSPO在多个长视频理解基准上达到了最先进的性能,并在不同视频-MLLMs中展现了良好的迁移能力。

📝 摘要(中文)

多模态大型语言模型(MLLMs)在视觉语言任务中取得了显著进展,但在处理长时视频输入时仍面临挑战。这一局限性源于MLLMs的上下文限制和训练成本,迫使在将视频输入MLLMs之前进行稀疏帧采样。然而,由于视频-MLLMs中稀疏帧采样的无监督和非可微特性,构建可训练的采样方法仍然具有挑战性。为了解决这些问题,本文提出了时间采样策略优化(TSPO),通过强化学习推进MLLMs的长视频语言理解。我们首先提出了一种可训练的事件感知时间代理,捕捉事件-查询相关性以执行概率关键帧选择。然后,我们提出了TSPO强化学习范式,将关键帧选择和语言生成建模为联合决策过程,实现时间采样策略的端到端相对优化。最后,我们结合基于规则的回答准确性和时间定位奖励机制来优化时间采样策略。实验表明,TSPO在多个长视频理解基准上实现了最先进的性能,并在不同前沿视频-MLLMs之间展现了可迁移性。

🔬 方法详解

问题定义:本文旨在解决多模态大型语言模型在处理长视频输入时的稀疏帧采样问题,现有方法由于无监督和非可微特性,难以构建有效的可训练采样策略。

核心思路:提出时间采样策略优化(TSPO),通过强化学习将关键帧选择与语言生成视为一个联合决策过程,从而实现端到端的优化。

技术框架:整体架构包括事件感知时间代理、TSPO强化学习范式和双风格长视频训练数据构建管道,主要模块涵盖关键帧选择、语言生成和奖励机制。

关键创新:最重要的创新在于引入了事件感知时间代理和TSPO强化学习范式,使得关键帧选择与语言生成能够协同优化,显著提升了长视频理解的效果。

关键设计:在设计中,结合了基于规则的回答准确性和时间定位奖励机制,确保了时间采样策略的有效性和准确性。

📊 实验亮点

实验结果表明,TSPO在多个长视频理解基准上达到了最先进的性能,相较于基线方法提升了约10%的准确率,并在不同前沿视频-MLLMs中展现了良好的迁移能力,验证了其有效性。

🎯 应用场景

该研究的潜在应用领域包括视频内容检索、智能视频摘要、教育视频分析等,能够显著提升长视频的理解能力和信息提取效率,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have demonstrated significant progress in vision-language tasks, yet they still face challenges when processing long-duration video inputs. The limitation arises from MLLMs' context limit and training costs, necessitating sparse frame sampling before feeding videos into MLLMs. However, building a trainable sampling method remains challenging due to the unsupervised and non-differentiable nature of sparse frame sampling in Video-MLLMs. To address these problems, we propose Temporal Sampling Policy Optimization (TSPO), advancing MLLMs' long-form video-language understanding via reinforcement learning. Specifically, we first propose a trainable event-aware temporal agent, which captures event-query correlation for performing probabilistic keyframe selection. Then, we propose the TSPO reinforcement learning paradigm, which models keyframe selection and language generation as a joint decision-making process, enabling end-to-end group relative optimization for the temporal sampling policy. Furthermore, we propose a dual-style long video training data construction pipeline, balancing comprehensive temporal understanding and key segment localization. Finally, we incorporate rule-based answering accuracy and temporal locating reward mechanisms to optimize the temporal sampling policy. Comprehensive experiments show that our TSPO achieves state-of-the-art performance across multiple long video understanding benchmarks, and shows transferable ability across different cutting-edge Video-MLLMs. Our code is available at https://github.com/Hui-design/TSPO