Large-Scale Universal Defect Generation: Foundation Models and Datasets
作者: Yuanting Fan, Jun Liu, Bin-Bin Gao, Xiaochen Chen, Yuhuan Lin, Zhewei Dai, Jiawei Zhan, Chengjie Wang
分类: cs.CV, cs.AI
发布日期: 2026-04-10
备注: 25 pages, 13 figures, preprint
🔗 代码/项目: GITHUB
💡 一句话要点
提出UniDG:一个大规模通用缺陷生成模型,解决缺陷生成数据匮乏问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 缺陷生成 异常检测 图像编辑 少样本学习 生成对抗网络
📋 核心要点
- 现有缺陷生成方法依赖少样本学习,易过拟合特定缺陷,泛化性、真实感和类别一致性不足。
- UniDG通过构建大规模数据集UDG和提出通用缺陷生成模型,支持参考和文本引导的缺陷编辑,无需类别微调。
- UniDG在MVTec-AD和VisA数据集上超越了现有少样本异常生成和图像编辑方法,提升了合成质量和下游任务性能。
📝 摘要(中文)
现有的缺陷/异常生成方法通常依赖于少样本学习,由于缺乏大规模的配对缺陷编辑数据,导致过拟合于特定的缺陷类别。缺陷尺度和形态的巨大差异加剧了这个问题,导致泛化能力有限、真实感降低和类别一致性差。为了解决这些挑战,我们引入了UDG,一个包含30万个正常-异常-掩码-描述四元组的大规模数据集,涵盖了不同的领域。同时,我们提出了UniDG,一个通用的缺陷生成基础模型,它支持基于参考的缺陷生成和基于文本指令的缺陷编辑,而无需针对每个类别进行微调。UniDG通过自适应缺陷裁剪和结构化的双联画输入格式执行缺陷-上下文编辑,并通过MM-DiT多模态注意力融合参考和目标条件。一个两阶段的训练策略,即多样性-SFT(Diversity-SFT)和一致性-RFT(Consistency-RFT),进一步提高了多样性,同时增强了真实感和参考一致性。在MVTec-AD和VisA上的大量实验表明,UniDG在合成质量和下游单类和多类异常检测/定位方面优于先前的少样本异常生成和图像插入/编辑基线。
🔬 方法详解
问题定义:现有缺陷生成方法主要依赖于少样本学习,这导致模型容易过拟合到特定的缺陷类别上。根本原因是缺乏大规模的、配对的缺陷编辑数据,使得模型难以学习到缺陷的通用特征。此外,缺陷在尺度和形态上的巨大差异也加剧了这一问题,导致生成结果的泛化能力、真实感以及类别一致性都受到限制。
核心思路:UniDG的核心思路是构建一个大规模的缺陷数据集UDG,并在此基础上训练一个通用的缺陷生成基础模型。该模型能够通过参考图像或文本指令来生成缺陷,而无需针对每个缺陷类别进行单独的微调。通过大规模数据的训练,模型能够学习到缺陷的通用特征,从而提高生成结果的泛化能力和真实感。
技术框架:UniDG的整体框架包含数据准备、模型构建和训练三个主要阶段。首先,构建大规模数据集UDG,包含正常图像、异常图像、缺陷掩码和文本描述四元组。其次,构建UniDG模型,该模型采用Defect-Context Editing策略,通过自适应缺陷裁剪和结构化的双联画输入格式来处理缺陷和上下文信息。同时,使用MM-DiT多模态注意力机制来融合参考图像和目标图像的信息。最后,采用两阶段训练策略,先进行Diversity-SFT(多样性监督微调),再进行Consistency-RFT(一致性参考微调),以提高生成结果的多样性、真实感和参考一致性。
关键创新:UniDG的关键创新在于以下几点:一是构建了大规模的缺陷数据集UDG,为缺陷生成任务提供了充足的训练数据。二是提出了UniDG模型,该模型能够通过参考图像或文本指令来生成缺陷,而无需针对每个缺陷类别进行单独的微调。三是采用了Defect-Context Editing策略和MM-DiT多模态注意力机制,有效地处理了缺陷和上下文信息,并融合了参考图像和目标图像的信息。四是采用了两阶段训练策略,提高了生成结果的多样性、真实感和参考一致性。
关键设计:UniDG的关键设计包括:自适应缺陷裁剪,根据缺陷的大小和形状动态调整裁剪区域;结构化的双联画输入格式,将参考图像和目标图像以并排的方式输入模型;MM-DiT多模态注意力机制,用于融合参考图像和目标图像的信息;Diversity-SFT阶段,使用多样性的文本描述来微调模型,提高生成结果的多样性;Consistency-RFT阶段,使用参考图像来微调模型,提高生成结果的真实感和参考一致性。具体的损失函数和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
UniDG在MVTec-AD和VisA数据集上进行了广泛的实验,结果表明,UniDG在合成质量和下游单类和多类异常检测/定位方面均优于现有的少样本异常生成和图像插入/编辑方法。具体而言,UniDG在生成图像的真实感和多样性方面取得了显著的提升,并且能够生成与参考图像高度一致的缺陷图像。实验结果充分证明了UniDG的有效性和优越性。
🎯 应用场景
UniDG在工业质检、医疗影像分析、安全监控等领域具有广泛的应用前景。它可以用于生成各种类型的缺陷图像,从而扩充缺陷检测模型的训练数据,提高模型的鲁棒性和泛化能力。此外,UniDG还可以用于图像编辑和增强,例如,在图像中添加或修改缺陷,以模拟不同的缺陷场景,从而帮助人们更好地理解和分析缺陷。
📄 摘要(原文)
Existing defect/anomaly generation methods often rely on few-shot learning, which overfits to specific defect categories due to the lack of large-scale paired defect editing data. This issue is aggravated by substantial variations in defect scale and morphology, resulting in limited generalization, degraded realism, and category consistency. We address these challenges by introducing UDG, a large-scale dataset of 300K normal-abnormal-mask-caption quadruplets spanning diverse domains, and by presenting UniDG, a universal defect generation foundation model that supports both reference-based defect generation and text instruction-based defect editing without per-category fine-tuning. UniDG performs Defect-Context Editing via adaptive defect cropping and structured diptych input format, and fuses reference and target conditions through MM-DiT multimodal attention. A two-stage training strategy, Diversity-SFT followed by Consistency-RFT, further improves diversity while enhancing realism and reference consistency. Extensive experiments on MVTec-AD and VisA show that UniDG outperforms prior few-shot anomaly generation and image insertion/editing baselines in synthesis quality and downstream single- and multi-class anomaly detection/localization. Code will be available at https://github.com/RetoFan233/UniDG.