HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

📄 arXiv: 2603.06270v1 📥 PDF

作者: Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez

分类: cs.CV, cs.AI

发布日期: 2026-03-06


💡 一句话要点

HiPP-Prune:面向视觉-语言模型的分层偏好条件结构化剪枝

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 模型剪枝 结构化剪枝 多目标优化 幻觉鲁棒性 跨模态融合 资源分配

📋 核心要点

  1. 现有VLM剪枝方法在压缩模型时,容易影响视觉 grounding,加剧对象幻觉问题,即使在相同稀疏度下也是如此。
  2. HiPP-Prune将剪枝视为多目标优化问题,通过分层策略进行资源分配,并允许用户指定偏好向量来权衡不同目标。
  3. 实验表明,HiPP-Prune能够发现多样化的剪枝方案,并在保持任务效用的同时,有效提升VLM的幻觉鲁棒性。

📝 摘要(中文)

本文提出HiPP-Prune,一个分层偏好条件结构化剪枝框架,用于高效部署视觉-语言模型(VLMs)。该框架将剪枝视为多目标下的条件资源分配。HiPP-Prune进行计划层面的决策:通过将决策分解为全局稀疏度预算和层级分配,一次策略调用即可输出全局剪枝蓝图,并通过用户指定的偏好向量实现可查询的权衡。为了解决VLM特有的失效模式,策略状态集成了视觉敏感度信号,该信号源于视觉token和语言隐藏状态之间的注意力流,从而避免过度剪枝促进跨模态融合的关键视觉层。使用计划层面的Group Relative Policy Optimization (GRPO)优化剪枝计划,该优化基于多目标回报,结合了任务效用、幻觉鲁棒性(POPE)、压缩和受突触流启发的稳定性代理,以减少高稀疏度下的非生产性探索。在LLaVA上使用POPE和ScienceQA进行的实验表明,HiPP-Prune发现了多样化的非支配剪枝计划,并在匹配的稀疏度预算下提供了可控的鲁棒性-效用权衡。

🔬 方法详解

问题定义:现有的视觉-语言模型(VLM)剪枝方法在追求模型小型化和加速的同时,容易损害模型在视觉 grounding 方面的能力,导致对象幻觉问题加剧。即使在相同的稀疏度下,剪枝也可能对模型的性能产生负面影响,尤其是在跨模态融合方面。因此,如何在保证模型性能的同时,有效地压缩 VLM 是一个重要的挑战。

核心思路:HiPP-Prune 的核心思路是将 VLM 的剪枝过程视为一个多目标优化问题,其中目标包括任务效用、幻觉鲁棒性、模型压缩和剪枝稳定性。该方法通过分层策略来指导剪枝过程,允许用户根据自己的偏好来权衡这些目标。此外,HiPP-Prune 还考虑了 VLM 中视觉和语言模态之间的交互,避免过度剪枝对跨模态融合至关重要的视觉层。

技术框架:HiPP-Prune 的整体框架包含以下几个主要模块: 1. 分层剪枝策略:该策略负责生成全局剪枝蓝图,包括总体稀疏度预算和层级分配。 2. 视觉敏感度信号:该信号源于视觉 token 和语言隐藏状态之间的注意力流,用于指导剪枝过程,避免过度剪枝关键视觉层。 3. 多目标优化:使用 Group Relative Policy Optimization (GRPO) 算法来优化剪枝计划,该算法基于多目标回报,结合了任务效用、幻觉鲁棒性、压缩和稳定性代理。 4. 用户偏好向量:允许用户指定不同目标的权重,从而实现可控的鲁棒性-效用权衡。

关键创新:HiPP-Prune 的关键创新在于其分层偏好条件剪枝框架,该框架能够根据用户指定的偏好,在多个目标之间进行权衡。与传统的剪枝方法相比,HiPP-Prune 更加灵活和可控,能够更好地适应不同的应用场景。此外,HiPP-Prune 还考虑了 VLM 特有的失效模式,通过视觉敏感度信号来指导剪枝过程,从而提高模型的幻觉鲁棒性。

关键设计: 1. 视觉敏感度信号:通过计算视觉 token 和语言隐藏状态之间的注意力流来衡量视觉层的重要性,避免过度剪枝关键视觉层。 2. 多目标回报函数:结合了任务效用、幻觉鲁棒性 (POPE)、压缩和受突触流启发的稳定性代理,以平衡不同目标。 3. Group Relative Policy Optimization (GRPO):使用 GRPO 算法来优化剪枝计划,该算法能够有效地探索高稀疏度下的剪枝空间。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,HiPP-Prune 在 LLaVA 模型上,使用 POPE 和 ScienceQA 数据集进行评估时,能够发现多样化的非支配剪枝计划,并在匹配的稀疏度预算下,实现可控的鲁棒性-效用权衡。相较于其他剪枝方法,HiPP-Prune 能够在保持任务效用的同时,显著提升模型的幻觉鲁棒性。

🎯 应用场景

HiPP-Prune 可应用于各种需要高效部署的视觉-语言模型,例如移动设备上的图像描述、视觉问答等应用。通过控制剪枝过程中的鲁棒性和效用权衡,可以根据具体应用场景的需求,定制化地压缩模型,在保证模型性能的同时,降低计算资源消耗,提升用户体验。该研究对于推动 VLM 在资源受限环境下的应用具有重要意义。

📄 摘要(原文)

Pruning vision-language models (VLMs) for efficient deployment is challenging because compression can affect not only task utility but also visual grounding, often amplifying object hallucinations even at the same sparsity level. We present HiPP-Prune, a hierarchical preference-conditioned structured pruning framework that treats pruning as conditional resource allocation under multiple objectives. HiPP-Prune makes plan-level decisions: a single policy invocation outputs a global pruning blueprint by factorizing decisions into an overall sparsity budget and a layer-wise allocation, enabling queryable trade-offs via a user-specified preference vector. To account for VLM-specific failure modes, our policy state integrates a visual sensitivity signal derived from attention flow between vision tokens and language hidden states, discouraging over-pruning of vision-critical layers that facilitate cross-modal fusion. We optimize pruning plans with plan-level Group Relative Policy Optimization (GRPO) under a multi-objective return that combines task utility, hallucination robustness (POPE), compression, and a synaptic-flow-inspired stability proxy to reduce unproductive exploration in high-sparsity regimes. Experiments on LLaVA with POPE and ScienceQA demonstrate that HiPP-Prune discovers diverse non-dominated pruning plans and provides controllable robustness--utility trade-offs under matched sparsity budgets.