Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models
作者: Jinlong Li, Liyuan Jiang, Haonan Zhang, Nicu Sebe
分类: cs.CV
发布日期: 2026-03-02
备注: Accepted by CVPR 2026
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于局部与全局上下文优化的Token减少方法以提升视频大语言模型效率
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 Token减少 局部-全局优化 最优传输 信息聚合 时空冗余 计算效率
📋 核心要点
- 现有视频大语言模型在处理冗余视觉Token时效率低下,未能有效利用长上下文的压缩性。
- 本文提出通过局部-全局最优传输(AOT)方法,建立Token锚点以聚合信息上下文,从而实现Token的高效减少。
- 实验结果显示,AOT在多个短视频和长视频基准上表现优异,显著提升了计算效率和保真度。
📝 摘要(中文)
视频大语言模型(VLLMs)在视频理解方面表现出色,但由于冗余视觉Token的存在,导致效率低下。现有的剪枝方法主要针对帧内空间冗余或在LLM内部进行浅层剪枝,未能有效减少时空冗余并充分利用长上下文的压缩性。本文提出了一种新视角,通过在帧内和帧间建立Token锚点,利用局部-全局最优传输(AOT)方法全面聚合信息上下文。具体而言,我们在每帧内建立局部和全局感知的Token锚点,通过最优传输聚合剪枝Token的信息上下文,构建帧内Token锚点。同时,在时间帧片段的基础上,将每个片段的第一帧视为关键帧锚点,通过最优传输整合连续帧的相似信息,同时保留代表时间动态的独特Token,从而实现高效的Token减少。大量评估表明,所提AOT在多种短视频和长视频基准测试中表现出色,显著提高了计算效率,同时保持了时间和视觉的保真度。
🔬 方法详解
问题定义:本文旨在解决视频大语言模型中冗余视觉Token导致的效率低下问题。现有方法主要集中在帧内空间冗余或浅层剪枝,未能充分利用长上下文的压缩性,导致信息损失。
核心思路:本文提出通过建立局部和全局感知的Token锚点,利用最优传输方法聚合信息上下文,从而实现高效的Token减少。这种设计旨在保留重要信息,同时减少冗余。
技术框架:整体架构包括两个主要模块:首先,在每帧内建立局部和全局Token锚点;其次,通过最优传输方法在时间帧片段中整合信息,形成关键帧锚点。
关键创新:最重要的创新在于提出了局部-全局最优传输(AOT)方法,能够有效聚合剪枝Token的信息上下文,区别于传统方法的单一剪枝策略。
关键设计:在参数设置上,采用了基于注意力机制的Token锚点构建方法,损失函数设计旨在最大化信息保留,同时保持计算效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的AOT方法在多个短视频和长视频基准测试中表现出色,相较于现有方法,计算效率显著提升,同时保持了较高的时间和视觉保真度,具体性能数据未详述。
🎯 应用场景
该研究的潜在应用领域包括视频分析、自动视频摘要生成和多模态学习等。通过提升视频大语言模型的效率,能够在实时视频处理和大规模视频数据分析中发挥重要作用,推动相关领域的技术进步。
📄 摘要(原文)
Video Large Language Models (VLLMs) demonstrate strong video understanding but suffer from inefficiency due to redundant visual tokens. Existing pruning primary targets intra-frame spatial redundancy or prunes inside the LLM with shallow-layer overhead, yielding suboptimal spatiotemporal reduction and underutilizing long-context compressibility. All of them often discard subtle yet informative context from merged or pruned tokens. In this paper, we propose a new perspective that elaborates token \textbf{A}nchors within intra-frame and inter-frame to comprehensively aggregate the informative contexts via local-global \textbf{O}ptimal \textbf{T}ransport (\textbf{AOT}). Specifically, we first establish local- and global-aware token anchors within each frame under the attention guidance, which then optimal transport aggregates the informative contexts from pruned tokens, constructing intra-frame token anchors. Then, building on the temporal frame clips, the first frame within each clip will be considered as the keyframe anchors to ensemble similar information from consecutive frames through optimal transport, while keeping distinct tokens to represent temporal dynamics, leading to efficient token reduction in a training-free manner. Extensive evaluations show that our proposed AOT obtains competitive performances across various short- and long-video benchmarks on leading video LLMs, obtaining substantial computational efficiency while preserving temporal and visual fidelity. Project webpage: \href{https://tyroneli.github.io/AOT}{AOT}.