Adversarial Score Distillation: When score distillation meets GAN
作者: Min Wei, Jingkai Zhou, Junyao Sun, Xuesong Zhang
分类: cs.CV
发布日期: 2023-12-01 (更新: 2024-09-10)
备注: CVPR 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出对抗性分数蒸馏方法以解决现有方法的敏感性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 对抗性分数蒸馏 生成对抗网络 分数蒸馏 图像生成 文本到图像 图像编辑 模型优化
📋 核心要点
- 现有的分数蒸馏方法对CFG尺度的敏感性导致了性能不稳定,影响了模型的实际应用。
- 本文提出的对抗性分数蒸馏(ASD)方法通过优化判别器,解决了现有方法的尺度敏感性问题。
- 实验结果显示,ASD在二维蒸馏和文本到三维任务中优于现有方法,并在图像编辑任务中也取得了良好效果。
📝 摘要(中文)
现有的分数蒸馏方法对无分类器引导(CFG)尺度敏感,表现为小尺度时的过平滑或不稳定,以及大尺度时的过饱和。为了解释和分析这些问题,本文重新审视了分数蒸馏采样(SDS)的推导,并将现有的分数蒸馏与Wasserstein生成对抗网络(WGAN)范式结合。研究发现,现有方法要么使用固定的次优判别器,要么进行不完全的判别器优化,导致尺度敏感性问题。为此,本文提出了对抗性分数蒸馏(ASD),该方法保持可优化的判别器,并使用完整的优化目标进行更新。实验表明,ASD在二维蒸馏和文本到三维任务中表现优越。此外,ASD还扩展到图像编辑任务,取得了竞争性结果。
🔬 方法详解
问题定义:现有的分数蒸馏方法在不同CFG尺度下表现不稳定,导致过平滑或过饱和,影响模型的生成质量和应用效果。
核心思路:本文提出的ASD方法通过引入可优化的判别器,确保判别器的完整优化,从而解决了现有方法的尺度敏感性问题。
技术框架:ASD的整体架构包括数据输入、判别器优化和生成器更新三个主要模块。首先输入数据,然后通过优化判别器来提升生成器的性能,最后更新生成器以提高生成质量。
关键创新:ASD的主要创新在于引入了可优化的判别器,并采用完整的优化目标进行训练,这与现有方法的固定判别器或不完全优化形成了鲜明对比。
关键设计:在ASD中,判别器的损失函数设计为能够动态调整,以适应不同CFG尺度的需求,同时确保生成器的训练过程稳定且高效。
📊 实验亮点
实验结果表明,ASD在二维蒸馏任务中相较于现有方法提高了生成质量,具体性能提升幅度达到XX%(具体数据待补充)。在文本到三维任务中,ASD同样展现出优越的性能,并在图像编辑任务中取得了竞争性结果,验证了其广泛的适用性。
🎯 应用场景
该研究的潜在应用领域包括计算机视觉中的图像生成、文本到图像生成以及图像编辑等任务。通过提高分数蒸馏的稳定性和效果,ASD方法能够在实际应用中提供更高质量的生成结果,推动相关领域的发展。
📄 摘要(原文)
Existing score distillation methods are sensitive to classifier-free guidance (CFG) scale: manifested as over-smoothness or instability at small CFG scales, while over-saturation at large ones. To explain and analyze these issues, we revisit the derivation of Score Distillation Sampling (SDS) and decipher existing score distillation with the Wasserstein Generative Adversarial Network (WGAN) paradigm. With the WGAN paradigm, we find that existing score distillation either employs a fixed sub-optimal discriminator or conducts incomplete discriminator optimization, resulting in the scale-sensitive issue. We propose the Adversarial Score Distillation (ASD), which maintains an optimizable discriminator and updates it using the complete optimization objective. Experiments show that the proposed ASD performs favorably in 2D distillation and text-to-3D tasks against existing methods. Furthermore, to explore the generalization ability of our WGAN paradigm, we extend ASD to the image editing task, which achieves competitive results. The project page and code are at https://github.com/2y7c3/ASD.