SGS: Segmentation-Guided Scoring for Global Scene Inconsistencies

📄 arXiv: 2509.26039v1 📥 PDF

作者: Gagandeep Singh, Samudi Amarsinghe, Urawee Thani, Ki Fung Wong, Priyanka Singh, Xue Li

分类: cs.CV

发布日期: 2025-09-30

备注: 6 pages, 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出SGS:一种分割引导的评分方法,用于检测全局场景不一致性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 虚假信息检测 图像分割 场景理解 视觉语言模型

📋 核心要点

  1. 现有方法在处理全局场景不一致性(如前景背景不匹配)时存在不足,容易受到上下文操纵的影响。
  2. SGS通过分割掩码分离前景和背景,计算区域感知的连贯性得分,并与原始预测融合,无需重新训练。
  3. SGS作为推理阶段的轻量级模块,显著提高了模型对全局操纵的鲁棒性,且计算开销很小。

📝 摘要(中文)

本文扩展了多模态操纵检测的先进模型HAMMER,使其能够处理全局场景不一致性,例如前景-背景(FG-BG)不匹配。尽管HAMMER在DGM4数据集上表现出色,但在主要对象被置于不合理的背景中时,HAMMER始终失效。我们将其归因于标签空间偏差、局部注意力焦点以及虚假的文本-前景对齐。为了在不重新训练的情况下解决这个问题,我们提出了一种轻量级的分割引导评分(SGS)流程。SGS使用人/脸分割掩码来分离前景和背景区域,利用联合视觉-语言模型提取嵌入,并计算区域感知的连贯性得分。这些分数与HAMMER的原始预测融合,以提高二元检测、定位和token级别的解释能力。SGS仅在推理阶段进行,计算开销可忽略不计,并显著增强了对全局操纵的鲁棒性。这项工作证明了区域感知推理在多模态虚假信息检测中的重要性。我们发布了分割和评分的脚本。

🔬 方法详解

问题定义:现有方法,例如HAMMER,在处理全局场景不一致性时表现不佳。具体来说,当图像中的主要对象被放置在一个不合理的背景中时,模型容易失效。这主要是由于模型对局部信息的过度关注,以及文本和前景之间的虚假对齐,导致模型无法正确判断场景的合理性。

核心思路:本文的核心思路是利用图像分割技术将前景和背景分离,然后分别提取它们的视觉和语义特征,并计算它们之间的连贯性得分。通过将这个连贯性得分与原始模型的预测结果相结合,可以提高模型对全局场景不一致性的检测能力。这种方法无需重新训练原始模型,可以在推理阶段直接应用。

技术框架:SGS的整体框架包括以下几个主要模块:1) 使用预训练的分割模型(例如,人脸或人体分割模型)生成前景和背景的分割掩码。2) 使用分割掩码将图像分成前景和背景区域。3) 使用联合视觉-语言模型(例如,CLIP)提取前景和背景区域的视觉和文本嵌入。4) 计算前景和背景嵌入之间的连贯性得分。5) 将连贯性得分与原始模型的预测结果融合,得到最终的预测结果。

关键创新:SGS的关键创新在于它利用图像分割技术来显式地建模前景和背景之间的关系,从而提高了模型对全局场景不一致性的感知能力。与现有方法相比,SGS不需要重新训练原始模型,可以在推理阶段直接应用,并且计算开销很小。此外,SGS还可以提供区域感知的解释,帮助用户理解模型的预测结果。

关键设计:SGS的关键设计包括:1) 使用高质量的预训练分割模型来生成准确的分割掩码。2) 使用联合视觉-语言模型来提取具有语义信息的视觉和文本嵌入。3) 使用合适的连贯性度量方法(例如,余弦相似度)来计算前景和背景嵌入之间的连贯性得分。4) 使用合适的融合策略(例如,加权平均)将连贯性得分与原始模型的预测结果相结合。具体的参数设置和网络结构取决于所使用的预训练模型和数据集。

📊 实验亮点

SGS在不重新训练HAMMER的情况下,显著提高了其对全局场景不一致性的鲁棒性。实验结果表明,SGS能够有效地检测出那些将主体放置在不合理背景中的篡改图像,并且计算开销可忽略不计。该方法在二元检测、定位和token级别解释方面均有提升,证明了区域感知推理在多模态虚假信息检测中的重要性。

🎯 应用场景

该研究成果可应用于多媒体内容审核、虚假信息检测、图像取证等领域。通过检测图像中全局场景的不一致性,可以有效地识别和过滤经过恶意篡改的图像,从而维护网络信息的真实性和可靠性。未来,该技术可与更先进的AI模型结合,实现更精准、更智能的虚假信息检测。

📄 摘要(原文)

We extend HAMMER, a state-of-the-art model for multimodal manipulation detection, to handle global scene inconsistencies such as foreground-background (FG-BG) mismatch. While HAMMER achieves strong performance on the DGM4 dataset, it consistently fails when the main subject is contextually misplaced into an implausible background. We diagnose this limitation as a combination of label-space bias, local attention focus, and spurious text-foreground alignment. To remedy this without retraining, we propose a lightweight segmentation-guided scoring (SGS) pipeline. SGS uses person/face segmentation masks to separate foreground and background regions, extracts embeddings with a joint vision-language model, and computes region-aware coherence scores. These scores are fused with HAMMER's original prediction to improve binary detection, grounding, and token-level explanations. SGS is inference-only, incurs negligible computational overhead, and significantly enhances robustness to global manipulations. This work demonstrates the importance of region-aware reasoning in multimodal disinformation detection. We release scripts for segmentation and scoring at https://github.com/Gaganx0/HAMMER-sgs