DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

作者: Hai Ci, Ziheng Peng, Pei Yang, Yingxin Xuan, Mike Zheng Shou

分类: cs.CV

发布日期: 2025-11-24 (更新: 2025-11-26)

备注: 16 pages, 10 figures; typos corrected, references added

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

DiffSeg30k：用于AIGC精细化检测的多轮扩散编辑基准数据集

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: AIGC检测 扩散模型 语义分割 数据集 局部编辑

📋 核心要点

现有AIGC检测方法侧重于图像整体分类，忽略了对图像局部编辑区域的精确定位，难以应对扩散模型编辑带来的挑战。
DiffSeg30k数据集通过像素级标注，将AIGC检测任务转化为语义分割，从而实现对编辑区域的定位和编辑模型的识别。
实验表明，分割模型在图像级AIGC分类任务中表现出色，超越了传统伪造检测器，并展现出良好的跨生成器泛化能力。

📝 摘要（中文）

基于扩散模型的图像编辑技术能够对图像局部区域进行逼真的修改，使得AI生成内容的检测更具挑战性。现有的AIGC检测基准主要关注对整张图像的分类，忽略了对基于扩散模型的编辑区域的定位。本文提出了DiffSeg30k，一个包含3万张扩散编辑图像并带有像素级标注的公开数据集，旨在支持细粒度的AIGC检测。DiffSeg30k的特点包括：1) 来源于真实场景的图像，从COCO数据集中收集图像或图像提示，以反映真实世界的内容多样性；2) 多样化的扩散模型，使用八个SOTA扩散模型进行局部编辑；3) 多轮编辑，每张图像最多经过三次连续编辑，以模拟真实的连续编辑过程；4) 真实的编辑场景，基于视觉-语言模型(VLM)的流程自动识别有意义的区域，并生成上下文相关的提示，涵盖添加、删除和属性更改。DiffSeg30k将AIGC检测从二元分类转变为语义分割，从而能够同时定位编辑区域并识别编辑模型。本文对三种基线分割方法进行了基准测试，揭示了语义分割任务中的重大挑战，尤其是在图像失真方面的鲁棒性。实验还表明，尽管分割模型经过像素级定位的训练，但它们作为扩散编辑的整体图像分类器表现出高度的可靠性，优于已建立的伪造分类器，同时在跨生成器泛化方面显示出巨大的潜力。我们相信DiffSeg30k将通过展示基于分割的方法的潜力和局限性，推动AI生成内容细粒度定位的研究。

🔬 方法详解

问题定义：现有AIGC检测方法主要集中在图像级别的二元分类，即判断一张图像是否由AI生成。然而，基于扩散模型的局部编辑技术使得图像的某些区域由AI生成，而其他区域则保持原始状态。因此，需要一种能够精确定位图像中被编辑区域的方法，而现有的方法无法满足这一需求。现有方法的痛点在于无法提供像素级别的编辑区域定位，从而限制了对AIGC的细粒度分析和溯源。

核心思路：本文的核心思路是将AIGC检测问题转化为语义分割问题。通过构建一个包含大量扩散编辑图像并带有像素级标注的数据集DiffSeg30k，训练语义分割模型来识别图像中被编辑的区域。这种方法能够同时实现编辑区域的定位和编辑模型的识别，从而提供更细粒度的AIGC检测能力。之所以选择语义分割，是因为它能够提供像素级别的分类结果，从而精确地标记出图像中被编辑的区域。

技术框架：DiffSeg30k数据集的构建流程主要包括以下几个阶段：1) 图像收集：从COCO数据集中收集图像或图像提示，以保证数据集的多样性和真实性。2) 局部编辑：使用八个SOTA扩散模型对图像进行局部编辑，模拟真实的编辑场景。3) 多轮编辑：每张图像最多经过三次连续编辑，以模拟真实的连续编辑过程。4) 提示生成：使用基于视觉-语言模型(VLM)的流程自动识别有意义的区域，并生成上下文相关的提示，涵盖添加、删除和属性更改。5) 像素级标注：对编辑区域进行像素级标注，为语义分割模型的训练提供ground truth。

关键创新：该论文的关键创新在于提出了DiffSeg30k数据集，并将AIGC检测问题转化为语义分割问题。与现有方法相比，DiffSeg30k数据集提供了像素级别的标注，从而能够训练语义分割模型来精确定位图像中被编辑的区域。这种方法不仅能够判断一张图像是否由AI生成，还能够识别出图像中哪些区域被编辑过，以及使用了哪些扩散模型进行编辑。

关键设计：在数据集构建过程中，使用了八个SOTA扩散模型进行局部编辑，以保证数据集的多样性。同时，为了模拟真实的编辑场景，每张图像最多经过三次连续编辑。此外，还使用了基于视觉-语言模型(VLM)的流程自动识别有意义的区域，并生成上下文相关的提示，以保证编辑的真实性和合理性。在实验中，使用了三种基线分割方法进行基准测试，并分析了它们在图像失真方面的鲁棒性。

📊 实验亮点

实验结果表明，尽管分割模型经过像素级定位的训练，但它们作为扩散编辑的整体图像分类器表现出高度的可靠性，优于已建立的伪造分类器，同时在跨生成器泛化方面显示出巨大的潜力。具体来说，分割模型在图像级AIGC分类任务中取得了显著的性能提升，并且在不同的扩散模型之间表现出良好的泛化能力。

🎯 应用场景

该研究成果可应用于AIGC内容溯源、版权保护、虚假信息检测等领域。通过精确定位图像中被编辑的区域，可以帮助识别和追踪AI生成的内容，从而打击虚假信息传播，保护原创作品的版权。此外，该技术还可以用于评估AIGC模型的安全性，防止其被用于恶意目的。

📄 摘要（原文）

Diffusion-based editing enables realistic modification of local image regions, making AI-generated content harder to detect. Existing AIGC detection benchmarks focus on classifying entire images, overlooking the localization of diffusion-based edits. We introduce DiffSeg30k, a publicly available dataset of 30k diffusion-edited images with pixel-level annotations, designed to support fine-grained detection. DiffSeg30k features: 1) In-the-wild images--we collect images or image prompts from COCO to reflect real-world content diversity; 2) Diverse diffusion models--local edits using eight SOTA diffusion models; 3) Multi-turn editing--each image undergoes up to three sequential edits to mimic real-world sequential editing; and 4) Realistic editing scenarios--a vision-language model (VLM)-based pipeline automatically identifies meaningful regions and generates context-aware prompts covering additions, removals, and attribute changes. DiffSeg30k shifts AIGC detection from binary classification to semantic segmentation, enabling simultaneous localization of edits and identification of the editing models. We benchmark three baseline segmentation approaches, revealing significant challenges in semantic segmentation tasks, particularly concerning robustness to image distortions. Experiments also reveal that segmentation models, despite being trained for pixel-level localization, emerge as highly reliable whole-image classifiers of diffusion edits, outperforming established forgery classifiers while showing great potential in cross-generator generalization. We believe DiffSeg30k will advance research in fine-grained localization of AI-generated content by demonstrating the promise and limitations of segmentation-based methods. DiffSeg30k is released at: https://huggingface.co/datasets/Chaos2629/Diffseg30k

DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册