FairJudge: MLLM Judging for Social Attributes and Prompt Image Alignment

📄 arXiv: 2510.22827v2 📥 PDF

作者: Zahraa Al Sahili, Maryam Fetanat, Maimuna Nowaz, Ioannis Patras, Matthew Purver

分类: cs.CV, cs.LG

发布日期: 2025-10-26 (更新: 2025-11-18)


💡 一句话要点

FairJudge:利用多模态LLM评估社会属性和提示图像对齐,提升公平性审计。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 公平性评估 文本到图像 社会属性 图像对齐 偏见检测 可解释性AI

📋 核心要点

  1. 现有的文本到图像模型评估方法依赖于表面线索,缺乏对社会属性的细粒度理解和公平性考量。
  2. FairJudge利用多模态LLM作为公平评判者,通过解释性规则、证据约束和拒绝机制,实现更可靠的评估。
  3. 实验表明,FairJudge在多个数据集上优于现有基线,提高了人口统计预测的准确性和图像对齐程度。

📝 摘要(中文)

文本到图像(T2I)系统缺乏简单且可复现的方法来评估图像与提示的匹配程度以及模型对社会属性的处理。常见的代理指标(如人脸分类器和对比相似性)奖励表面线索,缺乏校准后的拒绝判断能力,并且忽略了仅微弱可见的属性(例如,宗教、文化、残疾)。我们提出了FairJudge,一种轻量级协议,将指令遵循多模态LLM视为公平的评判者。它使用映射到[-1, 1]的解释性规则来评分对齐程度;将判断限制在封闭的标签集中;要求证据基于可见内容;并在线索不足时强制拒绝判断。与仅使用CLIP的流程不同,FairJudge产生可解释、感知证据的决策;与改变生成器的缓解措施不同,它针对评估公平性。我们在FairFace、PaTA和FairCoT上评估了性别、种族和年龄;扩展到宗教、文化和残疾;并在IdenProf、FairCoT-Professions和我们新的DIVERSIFY-Professions上评估了职业正确性和对齐程度。我们还发布了DIVERSIFY,一个包含469张多样化、非标志性场景的语料库。在所有数据集中,评判模型在人口统计预测方面优于对比和以人脸为中心的基线,并在保持高职业准确性的同时提高了平均对齐程度,从而实现了更可靠、可复现的公平性审计。

🔬 方法详解

问题定义:现有的文本到图像生成模型评估方法,特别是针对社会属性的评估,存在以下痛点:依赖于人脸检测等表面线索,容易受到图像质量和角度的影响;缺乏对社会属性细微差别的理解,难以评估宗教、文化等不易察觉的属性;缺乏拒绝判断机制,在信息不足时无法给出可靠的评估结果。这些问题导致评估结果不准确,难以进行公平性审计。

核心思路:FairJudge的核心思路是将多模态大型语言模型(MLLM)视为一个“公平的评判者”。MLLM具有强大的视觉理解和推理能力,能够根据图像内容和文本提示进行综合判断。通过设计合理的评估协议,约束MLLM的判断过程,使其能够给出可解释、感知证据的评估结果。

技术框架:FairJudge的整体框架包括以下几个主要步骤:1) 提示工程:设计包含社会属性信息的文本提示,输入到文本到图像生成模型中。2) 图像生成:使用文本到图像生成模型生成图像。3) MLLM评判:将生成的图像和文本提示输入到MLLM中,MLLM根据预定义的评估规则进行判断。4) 结果分析:分析MLLM的判断结果,评估生成模型在社会属性方面的表现。评估规则包括:对齐程度评分([-1, 1]),封闭标签集约束,证据 grounding,以及拒绝判断机制。

关键创新:FairJudge的关键创新在于:1) MLLM作为评判者:利用MLLM的强大能力进行图像评估,避免了对表面线索的过度依赖。2) 解释性评估规则:设计了可解释的评估规则,使评估结果更具透明性和可信度。3) 证据约束和拒绝机制:要求MLLM基于可见内容进行判断,并在信息不足时拒绝判断,提高了评估的可靠性。

关键设计:FairJudge的关键设计包括:1) 对齐程度评分:使用[-1, 1]的评分范围来评估图像与文本提示的对齐程度,其中-1表示完全不一致,1表示完全一致,0表示中立。2) 封闭标签集约束:将MLLM的判断限制在预定义的标签集中,避免了生成不相关的结果。3) 证据 grounding:要求MLLM提供判断的证据,例如图像中的特定区域或对象。4) 拒绝判断机制:当MLLM无法根据图像内容做出判断时,可以选择拒绝判断。

📊 实验亮点

FairJudge在FairFace、PaTA和FairCoT等数据集上进行了评估,结果表明,其在人口统计预测方面优于对比和以人脸为中心的基线。例如,在性别、种族和年龄预测方面,FairJudge的准确率显著高于现有方法。同时,FairJudge在保持高职业准确性的前提下,提高了平均对齐程度,证明了其在评估图像与文本提示对齐程度方面的有效性。

🎯 应用场景

FairJudge可应用于文本到图像生成模型的公平性审计、偏见检测和缓解。通过评估模型在生成不同社会群体图像时的表现,可以发现潜在的偏见并进行改进。此外,FairJudge还可以用于评估生成图像的质量和对齐程度,提高生成模型的可靠性和可用性。该研究有助于推动人工智能技术的公平、负责任发展。

📄 摘要(原文)

Text-to-image (T2I) systems lack simple, reproducible ways to evaluate how well images match prompts and how models treat social attributes. Common proxies -- face classifiers and contrastive similarity -- reward surface cues, lack calibrated abstention, and miss attributes only weakly visible (for example, religion, culture, disability). We present FairJudge, a lightweight protocol that treats instruction-following multimodal LLMs as fair judges. It scores alignment with an explanation-oriented rubric mapped to [-1, 1]; constrains judgments to a closed label set; requires evidence grounded in the visible content; and mandates abstention when cues are insufficient. Unlike CLIP-only pipelines, FairJudge yields accountable, evidence-aware decisions; unlike mitigation that alters generators, it targets evaluation fairness. We evaluate gender, race, and age on FairFace, PaTA, and FairCoT; extend to religion, culture, and disability; and assess profession correctness and alignment on IdenProf, FairCoT-Professions, and our new DIVERSIFY-Professions. We also release DIVERSIFY, a 469-image corpus of diverse, non-iconic scenes. Across datasets, judge models outperform contrastive and face-centric baselines on demographic prediction and improve mean alignment while maintaining high profession accuracy, enabling more reliable, reproducible fairness audits.