I Spy With My Model's Eye: Visual Search as a Behavioural Test for MLLMs
作者: John Burden, Jonathan Prunty, Ben Slater, Matthieu Tehenan, Greg Davis, Lucy Cheke
分类: cs.CV, cs.AI
发布日期: 2025-10-22
备注: Preprint
💡 一句话要点
利用视觉搜索行为测试评估多模态大语言模型(MLLM)的视觉感知能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉搜索 跳出效应 认知心理学 视觉感知
📋 核心要点
- 现有MLLM的视觉处理机制不透明,仅通过任务准确性评估难以深入了解其内在工作原理。
- 借鉴认知心理学中的视觉搜索范式,通过测试MLLM的“跳出效应”来评估其视觉感知能力。
- 实验表明,MLLM在单特征搜索中表现出类似人类的跳出效应,并在多特征搜索中存在能力限制,同时融入了自然场景先验知识。
📝 摘要(中文)
多模态大语言模型(MLLM)在视觉-语言任务中表现出色,但其视觉处理机制仍然不透明。大多数黑盒评估侧重于任务准确性,却很少揭示其内在机制。借鉴认知心理学,本文将经典的视觉搜索范式(最初用于研究人类感知)应用于测试MLLM是否表现出“跳出效应”,即显著的视觉特征是否能独立于干扰项的数量被检测到。通过控制颜色、大小和光照特征的实验,我们发现先进的MLLM在基于颜色或大小的分离(单特征)搜索中表现出类似人类的跳出效应,并且在结合(多特征)搜索中存在能力限制。我们还发现证据表明,MLLM像人类一样,将自然场景先验知识(如光照方向)融入到物体表征中。我们通过有针对性的微调和机制可解释性分析来强化我们的发现。这项工作表明,视觉搜索可以作为一种认知基础的诊断工具,用于评估MLLM的感知能力。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)视觉处理机制不透明的问题。现有评估方法主要关注任务准确性,无法深入了解MLLM如何进行视觉感知和表征,以及其视觉处理方式是否与人类相似。因此,需要一种更具诊断性的方法来评估MLLM的视觉能力。
核心思路:论文的核心思路是将认知心理学中用于研究人类视觉感知的视觉搜索范式应用于MLLM。通过观察MLLM在不同视觉搜索任务中的表现,特别是“跳出效应”,来推断其视觉处理机制。如果MLLM表现出类似人类的视觉搜索行为,则可以认为其视觉感知方式与人类存在相似之处。
技术框架:该研究的技术框架主要包括以下几个步骤: 1. 设计视觉搜索任务:设计针对颜色、大小和光照等不同视觉特征的视觉搜索任务,包括分离搜索(单特征)和结合搜索(多特征)。 2. 使用MLLM进行视觉搜索:将设计的视觉搜索任务输入到MLLM中,观察其搜索结果和反应时间。 3. 分析MLLM的搜索行为:分析MLLM是否表现出“跳出效应”,以及其搜索效率是否受到干扰项数量的影响。 4. 微调和可解释性分析:通过有针对性的微调来验证发现,并使用机制可解释性分析来进一步理解MLLM的视觉处理机制。
关键创新:该研究的关键创新在于将认知心理学中的视觉搜索范式引入到MLLM的评估中。这种方法提供了一种更具诊断性的方式来评估MLLM的视觉感知能力,并揭示了其视觉处理机制与人类视觉感知之间的相似之处。与传统的黑盒评估方法相比,该方法能够更深入地了解MLLM的内在工作原理。
关键设计:在实验设计方面,论文采用了控制变量的方法,精心设计了针对不同视觉特征的视觉搜索任务。例如,在颜色搜索任务中,目标物体和干扰项的颜色差异被精确控制,以确保实验结果的可靠性。此外,论文还使用了反应时间作为评估指标,以更准确地衡量MLLM的搜索效率。在微调方面,论文采用了有针对性的微调策略,以验证发现并提高MLLM在特定视觉搜索任务中的性能。
📊 实验亮点
实验结果表明,先进的MLLM在颜色和大小的分离搜索中表现出类似人类的“跳出效应”,即搜索时间不受干扰项数量的影响。然而,在结合搜索中,MLLM的搜索效率受到干扰项数量的显著影响,表明其存在能力限制。此外,研究还发现MLLM能够像人类一样,将自然场景先验知识(如光照方向)融入到物体表征中。
🎯 应用场景
该研究成果可应用于评估和改进MLLM的视觉感知能力,使其在图像识别、目标检测、视觉问答等任务中表现更佳。通过理解MLLM的视觉处理机制,可以更好地设计和优化模型,提高其鲁棒性和泛化能力。此外,该研究也为开发更智能、更人性化的AI系统提供了新的思路。
📄 摘要(原文)
Multimodal large language models (MLLMs) achieve strong performance on vision-language tasks, yet their visual processing is opaque. Most black-box evaluations measure task accuracy, but reveal little about underlying mechanisms. Drawing on cognitive psychology, we adapt classic visual search paradigms -- originally developed to study human perception -- to test whether MLLMs exhibit the ``pop-out'' effect, where salient visual features are detected independently of distractor set size. Using controlled experiments targeting colour, size and lighting features, we find that advanced MLLMs exhibit human-like pop-out effects in colour or size-based disjunctive (single feature) search, as well as capacity limits for conjunctive (multiple feature) search. We also find evidence to suggest that MLLMs, like humans, incorporate natural scene priors such as lighting direction into object representations. We reinforce our findings using targeted fine-tuning and mechanistic interpretability analyses. Our work shows how visual search can serve as a cognitively grounded diagnostic tool for evaluating perceptual capabilities in MLLMs.