iGVLM: Dynamic Instruction-Guided Vision Encoding for Question-Aware Multimodal Understanding

📄 arXiv: 2603.02748v1 📥 PDF

作者: HanZpeng Liu, Yaqian Li, Zidan Wang, Shuoxi Zhang, Zihao Bo, Rinyoichi Takezoe, Kaiwen Long, Kun He

分类: cs.CV, cs.AI

发布日期: 2026-03-03


💡 一句话要点

iGVLM:动态指令引导的视觉编码,用于问题感知的多模态理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 指令引导 视觉编码 多模态理解 自适应层归一化

📋 核心要点

  1. 现有LVLM依赖静态视觉编码器,缺乏任务特定视觉线索,限制了细粒度推理能力。
  2. iGVLM采用双分支架构,通过动态条件分支进行指令引导的视觉特征调制,提升任务相关性。
  3. MM4诊断探针验证了iGVLM在多查询、多指令场景下的逻辑一致性,并提升了指令敏感性。

📝 摘要(中文)

大型视觉-语言模型(LVLMs)虽然取得了成功,但现有架构大多存在表示瓶颈:它们依赖于静态的、指令无关的视觉编码器,其视觉表示在不同的文本任务中以不变的方式使用。这种刚性阻碍了细粒度的推理,而任务特定的视觉线索在细粒度推理中至关重要。为了解决这个问题,我们提出了iGVLM,一个用于指令引导的视觉调制的通用框架。iGVLM引入了解耦的双分支架构:一个冻结的表示分支,保留了预训练期间学习的任务无关的视觉表示;以及一个动态的条件分支,通过自适应层归一化(AdaLN)执行仿射特征调制。这种设计实现了从通用感知到指令感知推理的平滑过渡,同时保持了预训练视觉先验的结构完整性和稳定性。除了标准基准测试之外,我们还引入了MM4,一个受控的诊断探针,用于量化多查询、多指令设置下的逻辑一致性。大量结果表明,iGVLM始终增强了不同语言骨干网络的指令敏感性,为桥接被动感知和主动推理提供了一种即插即用的范例。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLM)通常使用静态的、与指令无关的视觉编码器。这意味着无论接收到什么指令,视觉编码器产生的视觉表示都是相同的。这种方式忽略了不同任务对视觉信息的需求差异,导致模型在需要细粒度视觉推理的任务中表现不佳。现有方法的痛点在于视觉表示的通用性和任务特定性之间存在矛盾,无法根据指令动态调整视觉特征。

核心思路:iGVLM的核心思路是解耦视觉表示的学习过程,将其分为一个静态的、任务无关的表示分支和一个动态的、指令相关的条件分支。静态分支负责学习通用的视觉特征,并保持预训练的视觉先验知识。动态分支则根据接收到的指令,对静态分支的特征进行调制,从而生成任务特定的视觉表示。这种解耦的设计允许模型在保持通用性的同时,具备根据指令进行细粒度视觉推理的能力。

技术框架:iGVLM采用双分支架构。第一个分支是冻结的表示分支,它使用预训练的视觉编码器(例如,CLIP的视觉编码器)提取图像的通用视觉特征。第二个分支是动态条件分支,它接收指令作为输入,并使用自适应层归一化(AdaLN)对表示分支的特征进行调制。AdaLN根据指令生成仿射变换参数,用于调整表示分支的特征。最终,调制后的特征被输入到语言模型中进行后续处理。

关键创新:iGVLM的关键创新在于引入了指令引导的视觉调制机制。通过解耦视觉表示的学习过程,并使用动态条件分支对视觉特征进行调制,iGVLM能够根据不同的指令生成任务特定的视觉表示。这种方法有效地解决了现有LVLM中视觉表示的通用性和任务特定性之间的矛盾。此外,MM4诊断探针的引入,能够更有效地评估模型在复杂多轮交互场景下的逻辑一致性。

关键设计:iGVLM的关键设计包括:1) 使用预训练的视觉编码器作为表示分支,以保持预训练的视觉先验知识;2) 使用AdaLN作为特征调制方法,因为它能够根据指令动态调整特征的均值和方差;3) 设计MM4诊断探针,用于评估模型在多查询、多指令设置下的逻辑一致性。AdaLN的具体实现细节包括使用一个小型神经网络将指令编码为仿射变换参数,这些参数用于对表示分支的特征进行缩放和平移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,iGVLM在多个视觉-语言基准测试中取得了显著的性能提升。特别是在MM4诊断探针上,iGVLM表现出更强的逻辑一致性,表明其能够更好地理解和利用指令信息。iGVLM在指令敏感性方面优于现有方法,证明了其动态视觉编码的有效性。

🎯 应用场景

iGVLM可应用于各种需要细粒度视觉推理的多模态任务,例如视觉问答、图像描述、视觉对话等。其动态指令引导的视觉编码方式能够提升模型在复杂场景下的理解能力,例如医疗影像诊断、自动驾驶等领域,具有重要的实际应用价值和潜力。未来可进一步探索其在机器人视觉、增强现实等领域的应用。

📄 摘要(原文)

Despite the success of Large Vision--Language Models (LVLMs), most existing architectures suffer from a representation bottleneck: they rely on static, instruction-agnostic vision encoders whose visual representations are utilized in an invariant manner across different textual tasks. This rigidity hinders fine-grained reasoning where task-specific visual cues are critical. To address this issue, we propose iGVLM, a general framework for instruction-guided visual modulation. iGVLM introduces a decoupled dual-branch architecture: a frozen representation branch that preserves task-agnostic visual representations learned during pre-training, and a dynamic conditioning branch that performs affine feature modulation via Adaptive Layer Normalization (AdaLN). This design enables a smooth transition from general-purpose perception to instruction-aware reasoning while maintaining the structural integrity and stability of pre-trained visual priors. Beyond standard benchmarks, we introduce MM4, a controlled diagnostic probe for quantifying logical consistency under multi-query, multi-instruction settings. Extensive results show that iGVLM consistently enhances instruction sensitivity across diverse language backbones, offering a plug-and-play paradigm for bridging passive perception and active reasoning.