V-FAT: Benchmarking Visual Fidelity Against Text-bias
作者: Ziteng Wang, Yujie He, Guanliang Li, Siqi Yang, Jiaqi Xiong, Songxiang Liu
分类: cs.CL, cs.CV, cs.LG, cs.MM
发布日期: 2026-01-08
备注: 12 pages, 6 figures
💡 一句话要点
V-FAT基准测试揭示多模态大语言模型中文本偏差下的视觉保真度问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 视觉问答 文本偏差 视觉保真度 基准测试 视觉推理 鲁棒性评估
📋 核心要点
- 现有的多模态大语言模型在视觉推理任务中表现出色,但过度依赖语言捷径,缺乏真正的视觉理解。
- 论文提出V-FAT基准测试,通过系统性地引入视觉与文本的冲突,来评估模型的视觉保真度。
- 实验结果表明,现有模型在高语言主导的情况下,视觉能力会显著下降,揭示了模型中文本偏差问题。
📝 摘要(中文)
多模态大语言模型(MLLM)在标准视觉推理基准测试中表现出令人印象深刻的性能。然而,人们越来越担心这些模型过度依赖语言捷径,而不是真正的视觉基础,我们称之为文本偏差。本文研究了视觉感知和语言先验之间的根本矛盾。我们将这种偏差的来源分解为两个维度:内部语料库偏差,源于预训练中的统计相关性;外部指令偏差,源于对齐诱导的谄媚倾向。为了量化这种影响,我们引入了V-FAT(Visual Fidelity Against Text-bias),这是一个诊断基准,包含跨越六个语义领域的4,026个VQA实例。V-FAT采用三级评估框架,系统地增加视觉证据和文本信息之间的冲突:(L1)来自非典型图像的内部偏差,(L2)来自误导性指令的外部偏差,以及(L3)两者同时发生的协同偏差。我们引入了视觉鲁棒性评分(VRS),这是一种旨在惩罚“幸运”语言猜测并奖励真正视觉保真度的指标。我们对12个前沿MLLM的评估表明,虽然模型在现有基准测试中表现出色,但在高语言主导下会经历显著的视觉崩溃。
🔬 方法详解
问题定义:现有的多模态大语言模型在视觉问答等任务中取得了显著进展,但它们往往依赖于训练数据中的语言统计规律,而非真正理解图像内容。这种“文本偏差”导致模型在面对视觉信息与文本信息冲突时,无法做出正确的判断。现有基准测试未能充分评估模型的视觉保真度,无法有效衡量模型对视觉信息的真实依赖程度。
核心思路:论文的核心思路是通过构建一个包含视觉与文本冲突的基准测试集,来评估模型在面对文本偏差时的视觉保真度。具体来说,论文设计了三种不同程度的冲突:内部语料库偏差(非典型图像)、外部指令偏差(误导性指令)和协同偏差(两者同时存在)。通过分析模型在不同冲突程度下的表现,可以量化模型对视觉信息的依赖程度。
技术框架:V-FAT基准测试包含4,026个VQA实例,涵盖六个语义领域。评估框架分为三个层级(L1, L2, L3),分别对应不同程度的视觉与文本冲突。L1层级使用非典型图像,图像内容与常见概念关联较弱;L2层级使用误导性指令,引导模型给出错误的答案;L3层级同时使用非典型图像和误导性指令,增加冲突程度。论文还提出了视觉鲁棒性评分(VRS)指标,用于惩罚“幸运”的语言猜测,并奖励真正的视觉保真度。
关键创新:V-FAT基准测试的主要创新在于其系统性地引入视觉与文本的冲突,从而能够更有效地评估模型的视觉保真度。与现有基准测试相比,V-FAT能够更好地揭示模型中文本偏差问题,并为未来的模型设计提供指导。VRS指标的设计也考虑了语言猜测的影响,能够更准确地衡量模型的视觉能力。
关键设计:V-FAT基准测试的关键设计包括:1) 三级评估框架,能够系统性地增加视觉与文本的冲突程度;2) 六个语义领域的选择,保证了基准测试的多样性;3) VRS指标的设计,能够有效区分视觉理解和语言猜测。具体来说,VRS的计算方式未知,但其核心思想是惩罚那些仅仅依靠语言信息就能得到正确答案的情况,而奖励那些真正理解图像内容才能得到正确答案的情况。
📊 实验亮点
对12个前沿MLLM的评估表明,这些模型在现有基准测试中表现出色,但在V-FAT基准测试中,在高语言主导下会经历显著的视觉崩溃。这表明现有模型存在严重的文本偏差问题,需要进一步改进其视觉理解能力。具体性能数据未知,但整体趋势表明模型在V-FAT上的表现远低于现有基准。
🎯 应用场景
该研究成果可应用于评估和改进多模态大语言模型的视觉理解能力,提高模型在实际应用中的可靠性和鲁棒性。例如,在自动驾驶、医疗影像分析等领域,模型需要准确理解图像内容,避免受到文本偏差的影响。V-FAT基准测试可以帮助开发者更好地评估和优化模型,使其能够更好地服务于这些关键应用。
📄 摘要(原文)
Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated impressive performance on standard visual reasoning benchmarks. However, there is growing concern that these models rely excessively on linguistic shortcuts rather than genuine visual grounding, a phenomenon we term Text Bias. In this paper, we investigate the fundamental tension between visual perception and linguistic priors. We decouple the sources of this bias into two dimensions: Internal Corpus Bias, stemming from statistical correlations in pretraining, and External Instruction Bias, arising from the alignment-induced tendency toward sycophancy. To quantify this effect, we introduce V-FAT (Visual Fidelity Against Text-bias), a diagnostic benchmark comprising 4,026 VQA instances across six semantic domains. V-FAT employs a Three-Level Evaluation Framework that systematically increases the conflict between visual evidence and textual information: (L1) internal bias from atypical images, (L2) external bias from misleading instructions, and (L3) synergistic bias where both coincide. We introduce the Visual Robustness Score (VRS), a metric designed to penalize "lucky" linguistic guesses and reward true visual fidelity. Our evaluation of 12 frontier MLLMs reveals that while models excel in existing benchmarks, they experience significant visual collapse under high linguistic dominance.