Language-Pretraining-Induced Bias: A Strong Foundation for General Vision Tasks

📄 arXiv: 2604.01833v1 📥 PDF

作者: Yaxin Luo, Zhiqiang Shen

分类: cs.CV, cs.CL, cs.LG

发布日期: 2026-04-02


💡 一句话要点

提出随机标签桥接训练,实现语言模型向视觉任务的有效迁移

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨模态学习 语言模型 视觉任务 迁移学习 随机标签 桥接训练 预训练模型

📋 核心要点

  1. 现有方法难以有效利用大型语言模型(LLM)的知识迁移到视觉任务中,主要因为模态差异导致参数空间存在较大差距。
  2. 论文提出随机标签桥接训练,通过一个模态适应学习器,无需手动标注即可将LLM参数与视觉任务对齐。
  3. 实验结果表明,部分桥接训练即可有效利用LLM的预训练知识,为跨模态迁移提供了一种新的实用方法。

📝 摘要(中文)

语言预训练模型和视觉预训练模型中离群参数的比例差异显著,这使得跨模态(语言和视觉)任务比跨领域适应更具挑战性。因此,许多先前的研究侧重于跨领域迁移,而没有尝试桥接语言和视觉模态,他们认为由于参数空间差异,语言预训练模型不适合下游视觉任务。与此假设相反,我们表明,添加一个桥接训练阶段作为模态适应学习器,可以有效地将大型语言模型(LLM)参数与视觉任务对齐。具体来说,我们提出了一种简单而强大的解决方案,即随机标签桥接训练,它不需要手动标注,并有助于LLM参数适应视觉基础任务。此外,我们的研究结果表明,部分桥接训练通常是有利的,因为LLM中的某些层表现出强大的基础属性,即使没有针对视觉任务进行微调,这些属性仍然有益。这一惊人的发现为直接在视觉模型中利用语言预训练参数开辟了新途径,并突出了部分桥接训练作为跨模态适应的实用途径的潜力。

🔬 方法详解

问题定义:现有方法难以将大型语言模型(LLM)的强大能力迁移到视觉任务中。主要痛点在于语言和视觉模态之间存在显著的参数空间差异,直接微调LLM用于视觉任务效果不佳。以往研究更侧重于跨领域迁移,而忽略了跨模态(语言-视觉)迁移的潜力。

核心思路:论文的核心思路是通过一个“桥接训练”阶段,作为模态适应学习器,来对齐LLM的参数空间与视觉任务的需求。具体而言,使用随机标签进行训练,使得LLM能够学习到视觉任务相关的特征表示,从而实现从语言到视觉的知识迁移。

技术框架:整体框架包含三个阶段:1) 预训练的LLM;2) 桥接训练阶段,使用随机标签数据集训练LLM;3) 在目标视觉任务上进行微调(可选)。核心在于桥接训练阶段,该阶段使用视觉数据集,但将图像与随机生成的标签关联,迫使LLM学习图像的底层视觉特征,而忽略标签的语义信息。

关键创新:最重要的创新点在于提出了随机标签桥接训练这一概念,它无需人工标注,即可实现LLM向视觉任务的有效迁移。此外,论文还发现,LLM的部分层具有很强的通用性,即使不进行微调,也能在视觉任务中发挥作用,这为更高效的跨模态迁移提供了可能。

关键设计:桥接训练阶段的关键设计包括:1) 使用随机标签,避免LLM学习到错误的语义信息;2) 可以选择只训练LLM的部分层,以保留LLM中具有通用性的底层特征;3) 损失函数采用标准的交叉熵损失函数,优化目标是使LLM能够预测随机标签。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文实验表明,通过随机标签桥接训练,LLM可以在视觉任务上取得显著的性能提升。更重要的是,研究发现部分桥接训练即可达到甚至超过全量微调的效果,这表明LLM的部分层具有很强的通用性,可以直接应用于视觉任务,为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于各种视觉任务,例如图像分类、目标检测、图像分割等。通过利用预训练的LLM,可以显著提升视觉模型的性能,尤其是在数据量有限的情况下。此外,该方法还可以促进多模态学习的发展,为构建更通用的人工智能系统奠定基础。

📄 摘要(原文)

The ratio of outlier parameters in language pre-training models and vision pre-training models differs significantly, making cross-modality (language and vision) inherently more challenging than cross-domain adaptation. As a result, many prior studies have focused on cross-domain transfer rather than attempting to bridge language and vision modalities, assuming that language pre-trained models are unsuitable for downstream visual tasks due to disparate parameter spaces. Contrary to this assumption, we show that adding a bridge training stage as a modality adaptation learner can effectively align Large Language Model (LLM) parameters with vision tasks. Specifically, we propose a simple yet powerful solution random label bridge training that requires no manual labeling and helps LLM parameters adapt to vision foundation tasks. Moreover, our findings reveal that partial bridge training is often advantageous, as certain layers in LLMs exhibit strong foundational properties that remain beneficial even without fine-tuning for visual tasks. This surprising discovery opens up new avenues for leveraging language pre-trained parameters directly within vision models and highlights the potential of partial bridge training as a practical pathway to cross-modality adaptation.