Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation

作者: Yusuke Hirota, Ryo Hachiuma, Boyi Li, Ximing Lu, Michael Ross Boone, Boris Ivanovic, Yejin Choi, Marco Pavone, Yu-Chiang Frank Wang, Noa Garcia, Yuta Nakashima, Chao-Han Huck Yang

分类: cs.CV

发布日期: 2025-09-09 (更新: 2025-10-06)

备注: ICCV 2025

💡 一句话要点

揭示性别偏见基准测试中的虚假特征问题，并提出更可靠的评估方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 性别偏见 视觉-语言模型 公平性评估 虚假相关性 特征敏感性 基准测试 模型鲁棒性

📋 核心要点

现有性别偏见评估基准存在性别与非性别特征的虚假相关性，导致评估结果可能不准确。
通过扰动基准测试中的非性别特征，量化这些特征对性别偏见评估的影响，揭示其敏感性。
实验表明，即使微小的扰动也会显著改变偏见评估结果，建议报告特征敏感性以提升评估可靠性。

📝 摘要（中文）

视觉-语言基础模型(VLMs)中的性别偏见引发了对其安全部署的担忧，通常使用带有真实世界图像性别注释的基准进行评估。然而，这些基准通常包含性别与非性别特征（如物体和背景）之间的虚假相关性。本文旨在研究虚假特征是否会扭曲性别偏见评估。通过系统地扰动四个广泛使用的基准（COCO-gender、FACET、MIAP和PHASE）以及各种VLMs中的非性别特征，量化了它们对偏见评估的影响。结果表明，即使是最小的扰动，例如仅屏蔽10%的物体或轻微模糊背景，也会显著改变偏见分数，在生成式VLMs中指标变化高达175%，在CLIP变体中高达43%。这表明当前的偏见评估通常反映了模型对虚假特征的响应，而不是性别偏见本身，从而降低了其可靠性。由于创建无虚假特征的基准具有根本性的挑战，建议在报告偏见指标的同时报告特征敏感性测量结果，以实现更可靠的偏见评估。

🔬 方法详解

问题定义：现有的视觉-语言模型（VLMs）性别偏见评估依赖于带有性别标注的图像数据集。然而，这些数据集往往存在“虚假相关性”问题，即图像中的非性别特征（如物体、场景）与性别标签存在统计上的关联。这导致模型可能并非真正学习到性别相关的特征，而是学习到了这些虚假相关性，从而使得评估结果产生偏差。现有方法无法有效区分模型对真实性别特征和虚假相关特征的响应，导致评估结果不可靠。

核心思路：本文的核心思路是通过系统性地扰动图像中的非性别特征，观察模型偏见评估结果的变化。如果模型对这些扰动非常敏感，说明其偏见评估结果很大程度上受到虚假相关性的影响，而非真正的性别偏见。通过量化这种敏感性，可以更准确地评估模型的性别偏见程度。

技术框架：本文的技术框架主要包括以下几个步骤：1）选择常用的性别偏见评估基准数据集（COCO-gender, FACET, MIAP, PHASE）；2）选择多种视觉-语言模型（VLMs）进行评估，包括生成式模型和CLIP变体；3）设计多种扰动策略，针对图像中的非性别特征进行修改，例如屏蔽物体、模糊背景等；4）使用原始图像和扰动后的图像分别进行偏见评估，计算偏见指标的变化；5）分析偏见指标变化与扰动程度之间的关系，量化模型对非性别特征的敏感性。

关键创新：本文最重要的技术创新在于揭示了性别偏见评估中虚假相关性的问题，并提出了一种通过扰动非性别特征来量化模型对这些虚假相关性敏感性的方法。与现有方法相比，本文的方法能够更准确地评估模型的真实性别偏见程度，避免了虚假相关性带来的干扰。

关键设计：在扰动策略的设计上，本文考虑了多种不同的扰动方式，包括：1）物体屏蔽：随机屏蔽图像中的部分物体，模拟物体特征的缺失；2）背景模糊：对图像背景进行模糊处理，降低背景特征的影响；3）颜色扰动：对图像颜色进行随机调整，改变图像的整体风格。通过这些不同的扰动方式，可以更全面地评估模型对不同类型非性别特征的敏感性。在偏见指标的选择上，本文使用了常用的偏见评估指标，例如性别分类准确率差异等。

📊 实验亮点

实验结果表明，即使对图像进行微小的非性别特征扰动（如屏蔽10%的物体或轻微模糊背景），也会导致生成式VLMs的偏见指标变化高达175%，CLIP变体的偏见指标变化高达43%。这突显了现有基准测试对虚假相关性的敏感性，并强调了在评估性别偏见时考虑特征敏感性的必要性。

🎯 应用场景

该研究成果可应用于视觉-语言模型的公平性评估与改进。通过识别和减轻模型对虚假相关性的依赖，可以开发出更公平、更可靠的AI系统，避免在人脸识别、图像搜索等应用中产生性别歧视。未来的研究可以探索更有效的去偏见方法，并构建更可靠的无偏基准数据集。

📄 摘要（原文）

Gender bias in vision-language foundation models (VLMs) raises concerns about their safe deployment and is typically evaluated using benchmarks with gender annotations on real-world images. However, as these benchmarks often contain spurious correlations between gender and non-gender features, such as objects and backgrounds, we identify a critical oversight in gender bias evaluation: Do spurious features distort gender bias evaluation? To address this question, we systematically perturb non-gender features across four widely used benchmarks (COCO-gender, FACET, MIAP, and PHASE) and various VLMs to quantify their impact on bias evaluation. Our findings reveal that even minimal perturbations, such as masking just 10% of objects or weakly blurring backgrounds, can dramatically alter bias scores, shifting metrics by up to 175% in generative VLMs and 43% in CLIP variants. This suggests that current bias evaluations often reflect model responses to spurious features rather than gender bias, undermining their reliability. Since creating spurious feature-free benchmarks is fundamentally challenging, we recommend reporting bias metrics alongside feature-sensitivity measurements to enable a more reliable bias assessment.

Bias in Gender Bias Benchmarks: How Spurious Features Distort Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册