VISOR++: Universal Visual Inputs based Steering for Large Vision Language Models

📄 arXiv: 2509.25533v1 📥 PDF

作者: Ravikumar Balakrishnan, Mansi Phute

分类: cs.CV, cs.AI

发布日期: 2025-09-29


💡 一句话要点

VISOR++:基于通用视觉输入的视觉语言模型行为引导方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 行为控制 模型引导 通用视觉输入 模型对齐

📋 核心要点

  1. 现有VLM行为控制方法存在局限,如易受用户指令影响、需侵入式访问模型内部,限制了其在API服务和闭源模型中的应用。
  2. VISOR++通过优化视觉输入实现行为控制,生成通用图像诱导目标激活模式,无需运行时模型访问,具有部署无关性。
  3. 实验表明,VISOR++在开放和封闭模型上均有效,能实现定向行为转变,并在MMLU评估中保持高性能。

📝 摘要(中文)

随着视觉语言模型(VLMs)在安全关键应用中的部署,理解和控制其行为模式变得越来越重要。现有的行为控制方法面临重大限制:系统提示方法容易被用户指令覆盖,而基于激活的引导向量需要侵入式的运行时模型内部访问,这排除了基于API服务和闭源模型的部署。寻找能够跨多个VLMs迁移的引导方法仍然是一个开放的研究领域。为此,我们引入了基于通用视觉输入的输出重定向引导方法(VISOR++),以仅通过优化的视觉输入来实现行为控制。我们证明,可以为VLMs集成生成单个VISOR++图像,以模拟每个VLMs的引导向量。通过制作能够诱导目标激活模式的通用视觉输入,VISOR++消除了对运行时模型访问的需求,同时保持了与部署无关性。这意味着当底层模型支持多模态能力时,可以通过插入图像输入来引导模型行为,从而取代基于运行时引导向量的干预。我们首先在LLaVA-1.5-7B和IDEFICS2-8B等开放访问模型上,沿着拒绝、谄媚和生存本能三个对齐方向证明了VISOR++图像的有效性。模型特定的引导图像和联合优化的图像都实现了与引导向量相当的性能,紧密地遵循了正向和负向引导任务。我们还展示了VISOR++图像在实现包括开放访问和封闭访问模型在内的未见模型的定向行为转变方面的潜力。此外,VISOR++图像能够在14,000个不相关的MMLU评估任务中保持99.9%的性能。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)的行为控制方法存在局限性。系统提示容易被用户指令覆盖,而基于激活的引导向量需要访问模型内部结构,这对于闭源模型或通过API调用的模型是不可行的。因此,如何在不访问模型内部结构的情况下,实现对VLM行为的有效控制是一个关键问题。

核心思路:VISOR++的核心思路是通过优化视觉输入,诱导模型产生特定的激活模式,从而实现行为控制。通过精心设计的图像,模型在处理图像时会产生与使用引导向量相似的效果,从而改变模型的输出行为。这种方法无需访问模型内部,适用于各种类型的VLM,包括闭源模型。

技术框架:VISOR++的技术框架主要包括以下几个步骤:1) 定义目标行为:确定需要引导的模型行为,例如拒绝回答敏感问题或避免谄媚。2) 生成引导向量:对于可以访问内部的模型,可以使用引导向量来改变模型的激活模式,作为目标激活模式。3) 优化视觉输入:使用优化算法,生成能够诱导模型产生与引导向量相似激活模式的视觉输入(图像)。4) 评估效果:评估生成的视觉输入在目标行为上的引导效果,以及在其他任务上的性能保持情况。

关键创新:VISOR++最重要的创新在于它提供了一种通用的、非侵入式的VLM行为控制方法。与传统的引导向量方法相比,VISOR++不需要访问模型内部结构,因此可以应用于各种类型的VLM,包括闭源模型和通过API调用的模型。此外,VISOR++生成的视觉输入可以跨多个VLM迁移,这意味着可以使用单个图像来引导多个模型的行为。

关键设计:VISOR++的关键设计包括:1) 优化算法的选择:使用合适的优化算法(如梯度下降)来生成能够诱导目标激活模式的视觉输入。2) 损失函数的设计:设计合适的损失函数来衡量生成的视觉输入与目标激活模式之间的差距。3) 图像的表示方式:选择合适的图像表示方式(如像素值)来优化视觉输入。4) 正则化项:为了防止生成的视觉输入过于复杂或过拟合,可以添加正则化项。

📊 实验亮点

VISOR++在LLaVA-1.5-7B和IDEFICS2-8B等开放模型上,实现了与引导向量相当的性能,成功引导模型在拒绝、谄媚和生存本能三个方向上进行行为转变。此外,VISOR++图像在14,000个MMLU评估任务中保持了99.9%的性能,表明该方法在引导模型行为的同时,不会显著影响其通用能力。

🎯 应用场景

VISOR++可应用于安全关键的VLM应用中,例如自动驾驶、医疗诊断等,用于控制模型的行为,避免产生不安全或不道德的输出。该方法还可用于提高VLM的鲁棒性,使其能够更好地应对恶意输入。此外,VISOR++可以作为一种模型对齐工具,用于调整VLM的行为,使其更符合人类的价值观。

📄 摘要(原文)

As Vision Language Models (VLMs) are deployed across safety-critical applications, understanding and controlling their behavioral patterns has become increasingly important. Existing behavioral control methods face significant limitations: system prompting approaches could easily be overridden by user instructions, while applying activation-based steering vectors requires invasive runtime access to model internals, precluding deployment with API-based services and closed-source models. Finding steering methods that transfer across multiple VLMs is still an open area of research. To this end, we introduce universal visual input based steering for output redirection (VISOR++), to achieve behavioral control through optimized visual inputs alone. We demonstrate that a single VISOR++ image can be generated for an ensemble of VLMs to emulate each of their steering vectors. By crafting universal visual inputs that induce target activation patterns, VISOR++ eliminates the need for runtime model access while remaining deployment-agnostic. This means that when an underlying model supports multimodal capability, model behaviors can be steered by inserting an image input replacing runtime steering vector based interventions. We first demonstrate the effectiveness of the VISOR++ images on open-access models such as LLaVA-1.5-7B and IDEFICS2-8B along three alignment directions: refusal, sycophancy and survival instinct. Both the model-specific steering images and the jointly optimized images achieve performance parity closely following that of steering vectors for both positive and negative steering tasks. We also show the promise of VISOR++ images in achieving directional behavioral shifts for unseen models including both open-access and closed-access ones. Furthermore, VISOR++ images are able to preserve 99.9% performance on 14,000 unrelated MMLU evaluation tasks.