LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation

📄 arXiv: 2604.00829v1 📥 PDF

作者: Patrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar, Alham Fikri Aji, Yova Kementchedjhieva

分类: cs.CV, cs.CL

发布日期: 2026-04-01


💡 一句话要点

LinguDistill:通过选择性跨模态蒸馏恢复视觉-语言模型中的语言能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 知识蒸馏 语言能力恢复 跨模态学习 无适配器 KV-cache共享

📋 核心要点

  1. 多模态适配会降低视觉-语言模型原有的语言能力,现有方法通常引入额外模块,增加模型复杂度和参数量。
  2. LinguDistill利用原始冻结的语言模型作为教师,通过选择性跨模态蒸馏恢复语言能力,无需额外适配器。
  3. 实验表明,LinguDistill在恢复语言能力的同时,保持了视觉任务的性能,且无需增加模型复杂度。

📝 摘要(中文)

将预训练语言模型(LMs)适配到视觉-语言模型(VLMs)中,会因多模态适配过程中引入的表征偏移和跨模态干扰而降低其原生的语言能力。即使使用标准目标进行特定任务微调,这种损失也很难恢复。先前的恢复方法通常引入额外的模块作为中间对齐层,以保持或隔离特定模态的子空间,这增加了架构复杂性,在推理时增加了参数,并限制了模型和设置的灵活性。我们提出了LinguDistill,一种无适配器的蒸馏方法,它通过利用原始冻结的LM作为教师来恢复语言能力。我们通过引入逐层KV-cache共享来克服启用视觉条件教师监督的关键挑战,这使得教师能够接触到学生的多模态表征,而无需修改任何模型的架构。然后,我们选择性地在语言密集型数据上提炼教师强大的语言信号,以恢复语言能力,同时保留学生在多模态任务中的视觉基础。因此,LinguDistill恢复了在语言和知识基准上损失的约10%的性能,同时保持了在视觉繁重任务中的可比性能。我们的研究结果表明,可以在没有额外模块的情况下恢复语言能力,为多模态模型中特定模态的退化提供了一种高效且实用的解决方案。

🔬 方法详解

问题定义:视觉-语言模型(VLM)在适配过程中,由于跨模态信息的引入,会损失其原有的语言能力。现有方法通常通过引入额外的适配器模块来解决这个问题,但这些模块会增加模型的参数量和计算复杂度,并且可能限制模型的灵活性。

核心思路:LinguDistill的核心思路是利用预训练的、未经过视觉信息干扰的原始语言模型(LM)作为教师模型,通过知识蒸馏的方式,将教师模型的语言能力迁移到VLM学生模型中。这种方法避免了引入额外的适配器模块,从而保持了模型的简洁性。

技术框架:LinguDistill的技术框架主要包括以下几个步骤:1) 使用预训练的LM作为教师模型,并将其参数冻结。2) 使用VLM作为学生模型,并允许其参数进行更新。3) 通过逐层KV-cache共享,将学生模型的视觉信息传递给教师模型,使得教师模型能够感知到视觉信息。4) 使用语言密集型数据,通过知识蒸馏的方式,训练学生模型,使其学习教师模型的语言能力。

关键创新:LinguDistill的关键创新在于:1) 提出了一种无适配器的知识蒸馏方法,避免了引入额外的适配器模块。2) 提出了一种逐层KV-cache共享机制,使得教师模型能够感知到学生模型的视觉信息,从而实现了视觉条件下的知识蒸馏。3) 提出了一种选择性的蒸馏策略,只在语言密集型数据上进行蒸馏,从而避免了对视觉任务性能的负面影响。

关键设计:LinguDistill的关键设计包括:1) 逐层KV-cache共享的实现细节,例如如何将学生模型的KV-cache传递给教师模型。2) 知识蒸馏损失函数的选择,例如可以使用KL散度或交叉熵损失函数。3) 语言密集型数据的选择,例如可以使用GLUE benchmark中的数据。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

LinguDistill在语言和知识基准测试中恢复了约10%的性能损失,同时保持了在视觉任务上的可比性能。该方法在不增加模型复杂度的前提下,有效提升了视觉-语言模型的语言能力。

🎯 应用场景

LinguDistill可应用于各种视觉-语言模型,提升其在语言理解、知识推理等方面的能力。该方法无需引入额外模块,易于部署和应用,具有广泛的应用前景,例如智能问答、图像描述、视觉对话等。

📄 摘要(原文)

Adapting pretrained language models (LMs) into vision-language models (VLMs) can degrade their native linguistic capability due to representation shift and cross-modal interference introduced during multimodal adaptation. Such loss is difficult to recover, even with targeted task-specific fine-tuning using standard objectives. Prior recovery approaches typically introduce additional modules that act as intermediate alignment layers to maintain or isolate modality-specific subspaces, which increases architectural complexity, adds parameters at inference time, and limits flexibility across models and settings. We propose LinguDistill, an adapter-free distillation method that restores linguistic capability by utilizing the original frozen LM as a teacher. We overcome the key challenge of enabling vision-conditioned teacher supervision by introducing layer-wise KV-cache sharing, which exposes the teacher to the student's multimodal representations without modifying the architecture of either model. We then selectively distill the teacher's strong linguistic signal on language-intensive data to recover language capability, while preserving the student's visual grounding on multimodal tasks. As a result, LinguDistill recovers $\sim$10% of the performance lost on language and knowledge benchmarks, while maintaining comparable performance on vision-heavy tasks. Our findings demonstrate that linguistic capability can be recovered without additional modules, providing an efficient and practical solution to modality-specific degradation in multimodal models.