HieraVid: Hierarchical Token Pruning for Fast Video Large Language Models

📄 arXiv: 2604.01881v1 📥 PDF

作者: Yansong Guo, Chaoyang Zhu, Jiayi Ji, Jianghang Lin, Liujuan Cao

分类: cs.CV, cs.CL

发布日期: 2026-04-02


💡 一句话要点

提出HieraVid以解决视频大语言模型的计算负担问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 大语言模型 剪枝技术 多模态学习 计算效率 段-帧结构 动态剪枝 视觉冗余

📋 核心要点

  1. 现有方法在视频令牌剪枝时主要集中于输入层,未能充分利用视频和大语言模型的内在信息结构,导致计算效率低下。
  2. HieraVid通过分层剪枝框架,结合视频的段-帧结构和大语言模型的单向信息传播,逐步减少视觉冗余,提高计算效率。
  3. 实验结果表明,HieraVid在仅保留30%令牌的情况下,达到了新的最先进性能,且对比基线模型性能损失极小。

📝 摘要(中文)

视频大语言模型(VideoLLMs)在视频理解方面展现了卓越的能力,但输入视频令牌的数量庞大,导致部署时计算负担显著。现有方法主要在输入层面进行视频令牌的剪枝,忽视了视频和大语言模型内部固有的信息结构。为此,本文提出了HieraVid,一个分层剪枝框架,逐步动态地减少视觉冗余。基于视频具有段-帧结构和大语言模型内部单向传播多模态信息的两个观察,剪枝被分解为三个层次:段级、帧级和层级。我们在四个广泛使用的视频理解基准上进行了广泛实验,结果显示HieraVid在保留30%令牌的情况下,达到了新的最先进性能,同时保持了LLaVA-Video-7B和LLaVA-OneVision-7B超过98%和99%的性能。

🔬 方法详解

问题定义:本文旨在解决视频大语言模型在处理大量输入令牌时的计算负担问题。现有方法主要在输入层进行剪枝,未能有效利用视频和大语言模型的内在信息结构,导致冗余信息未被充分处理。

核心思路:HieraVid提出了一种分层剪枝的思路,通过识别视频的段-帧结构和大语言模型的单向信息传播特性,动态地在多个层次上减少冗余信息,从而提高计算效率。

技术框架:HieraVid的整体架构分为三个主要模块:段级剪枝、帧级剪枝和层级剪枝。首先在段级对视频进行时间分段和空间合并,然后在帧级对同一段内的相似帧进行联合剪枝,最后在层级上随着大语言模型层数的增加逐步减少冗余。

关键创新:HieraVid的关键创新在于其分层剪枝策略,能够有效利用视频的结构信息和大语言模型的特性,与传统的输入层剪枝方法相比,显著提高了剪枝效率和模型性能。

关键设计:在设计上,HieraVid采用了动态剪枝策略,结合了段级、帧级和层级的剪枝方法,确保在保留模型性能的同时,最大限度地减少输入令牌的数量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HieraVid在实验中表现出色,仅保留30%的令牌便达到了新的最先进性能。与LLaVA-Video-7B和LLaVA-OneVision-7B相比,HieraVid在性能上保持了超过98%和99%的相对稳定性,展示了其在剪枝效率和模型性能上的显著提升。

🎯 应用场景

HieraVid的研究成果在视频理解、智能监控、自动视频摘要等领域具有广泛的应用潜力。通过提高视频大语言模型的计算效率,该技术能够在资源受限的环境中实现更高效的视频分析和处理,推动相关领域的技术进步。

📄 摘要(原文)

Video Large Language Models (VideoLLMs) have demonstrated impressive capabilities in video understanding, yet the massive number of input video tokens incurs a significant computational burden for deployment. Existing methods mainly prune video tokens at input level while neglecting the inherent information structure embedded in videos and large language models (LLMs). To address this, we propose HieraVid, a hierarchical pruning framework that progressively and dynamically reduces visual redundancy. Based on two observations that videos possess the segment-frame structure and LLMs internally propagate multi-modal information unidirectionally, we decompose pruning into three levels: 1) segment-level, where video tokens are first temporally segmented and spatially merged; 2) frame-level, where similar frames within the same segment are jointly pruned to preserve diversity; 3) layer-level, redundancy gradually shrinks as LLM layer increases w/o compromising performance. We conduct extensive experiments on four widely used video understanding benchmarks to comprehensively evaluate the effectiveness of HieraVid. Remarkably, with only 30% of tokens retained, HieraVid achieves new state-of-the-art performance, while maintaining over 98% and 99% of the performance of LLaVA-Video-7B and LLaVA-OneVision-7B, respectively.