EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

📄 arXiv: 2603.03681v1 📥 PDF

作者: Yuhao Chen, Bin Shan, Xin Ye, Cheng Chen

分类: cs.CV, cs.AI

发布日期: 2026-03-04

备注: 16 pages, 4 figures, 3 tables


💡 一句话要点

EvoPrune:面向高效多模态大语言模型的早期视觉Token剪枝

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉Token剪枝 早期剪枝 推理加速 视频理解

📋 核心要点

  1. 现有MLLM的视觉token剪枝方法忽略了视觉编码阶段的计算开销,导致效率瓶颈。
  2. EvoPrune在视觉编码的早期阶段进行token剪枝,通过token相似性、多样性和注意力机制指导,保留关键tokens。
  3. 实验表明,EvoPrune在VideoMME数据集上实现了2倍推理加速,性能损失小于1%,提升显著。

📝 摘要(中文)

多模态大语言模型(MLLMs)在视觉-语言任务中表现出强大的性能,但其推理效率受到高分辨率图像和视频等复杂场景中视觉tokens指数增长的严重限制。现有的视觉token剪枝方法主要在视觉编码之后进行,忽略了编码阶段产生的大量计算成本。为了解决这个问题,我们提出EvoPrune,一种用于MLLMs的早期视觉token剪枝方法,它直接在视觉编码期间执行剪枝。具体来说,EvoPrune采用一种分层剪枝策略,该策略由token相似性、多样性和基于注意力的重要性指导,以在选定的编码层中保留信息量最大的视觉tokens。在图像和视频基准上的大量实验验证了EvoPrune的有效性。特别是在VideoMME数据集上,EvoPrune实现了2倍的推理加速,而性能下降不到1%,证明了其在对延迟敏感的MLLM部署中的潜力。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLMs)在处理高分辨率图像或视频时,视觉tokens的数量会急剧增加,导致计算量巨大,推理速度慢。现有的token剪枝方法通常在视觉编码完成后进行,忽略了视觉编码本身所消耗的大量计算资源,无法从根本上解决效率问题。

核心思路:EvoPrune的核心思路是在视觉编码的早期阶段就进行token剪枝,从而减少后续计算量。通过在编码过程中逐步筛选掉不重要的tokens,只保留最具代表性的tokens用于后续处理,从而在保证性能的前提下显著提升推理速度。

技术框架:EvoPrune采用分层剪枝策略,在视觉编码器的多个中间层进行token剪枝。整体流程如下:首先,输入图像或视频帧经过初始的视觉编码层。然后,在选定的编码层,EvoPrune根据token的相似性、多样性和基于注意力的重要性,计算每个token的重要性得分。接下来,根据得分对tokens进行排序,并剪枝掉得分较低的tokens。最后,保留的tokens继续通过后续的编码层进行处理。

关键创新:EvoPrune的关键创新在于将token剪枝提前到视觉编码阶段,实现了更高效的计算。与现有方法相比,EvoPrune避免了对大量冗余tokens进行编码,从而显著降低了计算成本。此外,EvoPrune综合考虑了token的相似性、多样性和注意力重要性,从而更准确地评估token的重要性,保证了剪枝后的性能。

关键设计:EvoPrune的关键设计包括:1) Token相似性度量:使用余弦相似度计算token之间的相似性,避免选择过于相似的tokens。2) Token多样性度量:鼓励选择具有代表性的tokens,避免选择过于集中的tokens。3) 注意力重要性度量:利用注意力机制评估token对最终预测结果的重要性。4) 分层剪枝比例:根据不同层的特征重要性,动态调整剪枝比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvoPrune在VideoMME数据集上取得了显著的性能提升。在保持性能下降小于1%的情况下,EvoPrune实现了2倍的推理加速。这一结果表明,EvoPrune能够有效地降低MLLMs的计算成本,并在实际应用中具有很大的潜力。此外,实验还验证了EvoPrune在图像分类任务上的有效性。

🎯 应用场景

EvoPrune适用于对延迟敏感的多模态大语言模型应用,例如实时视频问答、智能监控、自动驾驶等。通过降低计算成本,EvoPrune可以使MLLMs在资源受限的设备上运行,并提高用户体验。该方法还有助于降低云端推理服务的成本,促进MLLMs的广泛应用。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have shown strong performance in vision-language tasks, but their inference efficiency is severely limited by the exponential growth of visual tokens in complex scenarios such as high-resolution images and videos. Existing visual token pruning methods mainly operate after visual encoding, overlooking the substantial computational cost incurred during the encoding stage. To address this issue, we propose EvoPrune, an early-stage visual token pruning method for MLLMs that performs pruning directly during visual encoding. Specifically, EvoPrune employs a layer-wise pruning strategy guided by token similarity, diversity, and attention-based importance to retain the most informative visual tokens at selected encoding layers. Extensive experiments on image and video benchmarks validate the effectiveness of EvoPrune. In particular, on the VideoMME dataset, EvoPrune achieves 2$\times$ inference speedup with less than 1% performance degradation, demonstrating its potential for latency-sensitive MLLM deployment.