Universal Inverse Distillation for Matching Models with Real-Data Supervision (No GANs)

📄 arXiv: 2509.22459v1 📥 PDF

作者: Nikita Kornilov, David Li, Tikhon Mavrin, Aleksei Leonov, Nikita Gushchin, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin

分类: stat.ML, cs.LG

发布日期: 2025-09-26


💡 一句话要点

提出RealUID:一种通用的无GAN匹配模型逆向蒸馏框架,可利用真实数据加速生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 逆向蒸馏 匹配模型 无GAN 真实数据 单步生成 模型加速 扩散模型 流模型

📋 核心要点

  1. 现有匹配模型生成质量高但推理速度慢,蒸馏方法虽能加速但框架受限且难以有效利用真实数据。
  2. RealUID提出一种通用蒸馏框架,无需GAN即可将真实数据融入匹配模型的蒸馏过程,加速推理。
  3. RealUID具有坚实的理论基础,适用于多种匹配模型及其变体,如Flow Matching、Diffusion Models等。

📝 摘要(中文)

现代扩散模型、流模型和其他匹配模型虽然具有卓越的生成质量,但由于需要多次迭代生成,因此推理速度较慢。最近的蒸馏方法通过在预训练教师模型的指导下训练高效的单步生成器来解决这个问题。然而,这些方法通常仅限于一种特定框架,例如仅限于扩散模型或仅限于流模型。此外,这些方法本质上是无数据的,为了受益于真实数据的使用,需要使用额外的复杂对抗训练以及额外的判别器模型。在本文中,我们提出RealUID,这是一个适用于所有匹配模型的通用蒸馏框架,可将真实数据无缝地整合到蒸馏过程中,而无需GAN。我们的RealUID方法提供了一个简单的理论基础,涵盖了先前用于Flow Matching和Diffusion模型的蒸馏方法,并且还扩展到它们的修改版本,例如Bridge Matching和Stochastic Interpolants。

🔬 方法详解

问题定义:现有匹配模型(如扩散模型、流模型)存在推理速度慢的问题,需要多次迭代生成。现有的蒸馏方法虽然可以加速推理,但通常只针对特定类型的模型,缺乏通用性。此外,这些方法通常是数据无关的,难以直接利用真实数据来提升性能,如果想利用真实数据,则需要引入GAN,增加了训练的复杂性。

核心思路:RealUID的核心思路是通过逆向蒸馏,将预训练的教师模型的能力转移到单步生成器(学生模型)上。与传统的蒸馏方法不同,RealUID能够直接利用真实数据进行训练,而无需引入GAN。这种方法通过最小化学生模型生成结果与真实数据之间的差异,同时保持与教师模型输出的一致性,从而实现高效且高质量的生成。

技术框架:RealUID的整体框架包括一个预训练的教师模型和一个待训练的学生模型。教师模型可以是任意的匹配模型(如扩散模型、流模型等)。学生模型是一个单步生成器,旨在模仿教师模型的行为。训练过程中,RealUID使用真实数据作为输入,并计算学生模型生成结果与真实数据之间的差异,以及学生模型输出与教师模型输出之间的差异。通过最小化这两个差异,RealUID能够将教师模型的能力转移到学生模型上,并使学生模型能够生成高质量的样本。

关键创新:RealUID的关键创新在于其通用性和无GAN的真实数据利用能力。它提供了一个统一的理论框架,可以应用于各种匹配模型及其变体。与需要引入GAN的传统方法不同,RealUID可以直接利用真实数据进行训练,从而避免了GAN训练的复杂性和不稳定性。

关键设计:RealUID的关键设计包括损失函数的设计和训练策略。损失函数通常包括两部分:一部分是学生模型生成结果与真实数据之间的差异(例如,L1或L2损失),另一部分是学生模型输出与教师模型输出之间的差异(例如,KL散度或均方误差)。训练策略通常采用迭代优化算法,例如梯度下降或Adam。具体的参数设置(例如,学习率、批大小等)需要根据具体的模型和数据集进行调整。

📊 实验亮点

RealUID在多个匹配模型上进行了实验验证,包括Flow Matching和Diffusion Models。实验结果表明,RealUID能够在保持生成质量的同时,显著提升推理速度。与需要GAN的方法相比,RealUID在训练稳定性和生成质量方面均表现出优势。具体性能数据(如FID、IS等)和提升幅度需要在论文中查找。

🎯 应用场景

RealUID可广泛应用于图像生成、音频合成、视频生成等领域,尤其适用于对推理速度有较高要求的场景。例如,在实时图像编辑、快速内容生成、低延迟语音合成等应用中,RealUID可以显著提升用户体验。此外,该方法还可以用于数据增强、模型压缩等任务,具有重要的实际应用价值和潜在的未来影响。

📄 摘要(原文)

While achieving exceptional generative quality, modern diffusion, flow, and other matching models suffer from slow inference, as they require many steps of iterative generation. Recent distillation methods address this by training efficient one-step generators under the guidance of a pre-trained teacher model. However, these methods are often constrained to only one specific framework, e.g., only to diffusion or only to flow models. Furthermore, these methods are naturally data-free, and to benefit from the usage of real data, it is required to use an additional complex adversarial training with an extra discriminator model. In this paper, we present RealUID, a universal distillation framework for all matching models that seamlessly incorporates real data into the distillation procedure without GANs. Our RealUID approach offers a simple theoretical foundation that covers previous distillation methods for Flow Matching and Diffusion models, and is also extended to their modifications, such as Bridge Matching and Stochastic Interpolants.