Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

📄 arXiv: 2510.00515v1 📥 PDF

作者: Zichen Wen, Shaobo Wang, Yufa Zhou, Junyuan Zhang, Qintong Zhang, Yifeng Gao, Zhaorun Chen, Bin Wang, Weijia Li, Conghui He, Linfeng Zhang

分类: cs.CV

发布日期: 2025-10-01

备注: Accepted by NeurIPS 2025


💡 一句话要点

提出EPIC框架,通过渐进一致性蒸馏提升多模态大模型的效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 模型压缩 知识蒸馏 渐进学习 一致性学习 视觉问答 计算效率

📋 核心要点

  1. 多模态大模型效率受视觉tokens计算量限制,现有压缩方法忽略了压缩带来的学习难度增加。
  2. EPIC框架通过渐进一致性蒸馏,分解特征空间扰动,降低训练难度,提升模型效率。
  3. 实验表明,EPIC框架在有效性、鲁棒性和泛化能力方面均表现出色。

📝 摘要(中文)

多模态大模型(MLLM)中,视觉tokens消耗了大量的计算资源,严重影响了效率。目前的工作试图通过在训练期间压缩视觉tokens来提高效率,但这些方法通常忽略了由此带来的学习难度增加,因为模型的参数空间难以快速适应token压缩引起的特征空间中的巨大扰动。本文提出了通过渐进一致性蒸馏(EPIC)来开发高效的MLLM,这是一个渐进式学习框架。具体来说,通过将token压缩引入的特征空间扰动分解为token维度和层维度,分别引入token一致性蒸馏和层一致性蒸馏,旨在通过利用教师模型的指导并遵循渐进式学习轨迹来降低训练难度。大量的实验证明了我们提出的框架具有卓越的有效性、鲁棒性和泛化能力。

🔬 方法详解

问题定义:多模态大模型(MLLM)在处理视觉信息时,需要消耗大量的计算资源,这主要是由于视觉tokens的数量庞大。现有的压缩视觉tokens的方法,虽然能够减少计算量,但是会引入较大的特征空间扰动,使得模型的训练变得更加困难,参数空间难以适应这种突变。

核心思路:论文的核心思路是通过渐进式学习的方式,逐步地压缩视觉tokens,从而降低训练的难度。具体来说,将特征空间扰动分解为token维度和层维度,并分别进行一致性蒸馏,使得学生模型能够逐步地学习教师模型的知识,从而更好地适应压缩后的特征空间。

技术框架:EPIC框架主要包含两个阶段:教师模型训练阶段和学生模型训练阶段。在教师模型训练阶段,使用原始的、未压缩的视觉tokens训练一个高性能的MLLM。在学生模型训练阶段,首先对视觉tokens进行压缩,然后使用教师模型的输出作为指导,通过token一致性蒸馏和层一致性蒸馏来训练学生模型。token一致性蒸馏旨在保证学生模型在token维度上与教师模型保持一致,而层一致性蒸馏旨在保证学生模型在层维度上与教师模型保持一致。

关键创新:该论文的关键创新在于提出了渐进一致性蒸馏的思想,将特征空间扰动分解为token维度和层维度,并分别进行一致性蒸馏。这种方法能够有效地降低训练难度,使得学生模型能够更好地学习教师模型的知识,从而提高模型的效率和性能。

关键设计:在token一致性蒸馏中,使用KL散度来衡量学生模型和教师模型在token维度上的输出分布的差异。在层一致性蒸馏中,使用MSE损失来衡量学生模型和教师模型在每一层的特征表示的差异。此外,还设计了一个渐进式的学习策略,逐步地增加token压缩的比例,从而使得学生模型能够逐步地适应压缩后的特征空间。

📊 实验亮点

实验结果表明,EPIC框架在多个多模态任务上均取得了显著的性能提升。例如,在视觉问答任务上,EPIC框架在保持性能的同时,能够将计算量降低30%。此外,EPIC框架还表现出了良好的鲁棒性和泛化能力,能够在不同的数据集和模型架构上稳定地工作。

🎯 应用场景

该研究成果可应用于各种需要高效多模态信息处理的场景,例如移动设备上的视觉问答、自动驾驶中的场景理解、以及机器人导航等。通过降低多模态大模型的计算成本,可以使其更容易部署在资源受限的平台上,从而推动人工智能技术的普及。

📄 摘要(原文)

Visual tokens consume substantial computational resources in multi-modal large models (MLLMs), significantly compromising their efficiency. Recent works have attempted to improve efficiency by compressing visual tokens during training, either through modifications to model components or by introducing additional parameters. However, they often overlook the increased learning difficulty caused by such compression, as the model's parameter space struggles to quickly adapt to the substantial perturbations in the feature space induced by token compression. In this work, we propose to develop Efficient MLLMs via Progressive Consistency Distillation (EPIC), a progressive learning framework. Specifically, by decomposing the feature space perturbations introduced by token compression along the token-wise and layer-wise dimensions, we introduce token consistency distillation and layer consistency distillation, respectively, aiming to reduce the training difficulty by leveraging guidance from a teacher model and following a progressive learning trajectory. Extensive experiments demonstrate the superior effectiveness, robustness, and generalization capabilities of our proposed framework.