Cross-Resolution Distribution Matching for Diffusion Distillation
作者: Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang
分类: cs.CV
发布日期: 2026-03-06
💡 一句话要点
提出RMD框架,通过跨分辨率分布匹配加速高保真扩散模型蒸馏。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 扩散模型 蒸馏 跨分辨率 分布匹配 图像生成 加速推理 多分辨率级联
📋 核心要点
- 现有扩散模型蒸馏方法在加速推理方面遇到瓶颈,单纯减少去噪步数已难以显著提升效率。
- RMD框架通过对数信噪比映射和跨分辨率分布匹配,弥合了低分辨率生成与高分辨率教师模型之间的分布差异。
- 实验表明,RMD在显著加速推理的同时,能够保持图像生成的高保真度,并在SDXL和Wan2.1-14B等模型上取得了显著的加速效果。
📝 摘要(中文)
扩散模型蒸馏是加速图像和视频生成的关键,但现有方法受限于去噪过程,步数缩减已接近饱和。部分时间步的低分辨率生成可以进一步加速推理,但由于跨分辨率分布差异,图像质量明显下降。我们提出了跨分辨率分布匹配蒸馏(RMD),这是一个新颖的蒸馏框架,弥合了跨分辨率分布的差距,实现了高保真、少步数的多分辨率级联推理。具体来说,RMD使用对数信噪比(logSNR)曲线划分每个分辨率的时间步间隔,并引入基于logSNR的映射来补偿分辨率引起的偏移。沿着分辨率轨迹进行分布匹配,以减少低分辨率生成器分布与教师高分辨率分布之间的差距。此外,在图像上采样过程中加入预测噪声重注入机制,以稳定训练并提高合成质量。定量和定性结果表明,RMD在加速推理的同时,保持了各种骨干网络的高保真生成。值得注意的是,RMD在SDXL上实现了高达33.4倍的加速,在Wan2.1-14B上实现了25.6倍的加速,同时保持了高视觉保真度。
🔬 方法详解
问题定义:现有扩散模型蒸馏方法在加速推理时,主要通过减少去噪步骤来实现。然而,这种方法已经接近饱和,难以进一步提升效率。此外,为了进一步加速,可以采用部分时间步的低分辨率生成,但由于低分辨率和高分辨率数据分布的差异,会导致生成质量明显下降。因此,如何弥合跨分辨率的分布差异,在加速推理的同时保持图像质量,是本文要解决的核心问题。
核心思路:本文的核心思路是通过跨分辨率分布匹配来解决上述问题。具体来说,首先使用对数信噪比(logSNR)曲线来划分每个分辨率的时间步间隔,并引入基于logSNR的映射来补偿分辨率引起的偏移。然后,沿着分辨率轨迹进行分布匹配,以减小低分辨率生成器分布与高分辨率教师模型分布之间的差距。通过这种方式,可以使得低分辨率生成器能够更好地学习高分辨率教师模型的分布,从而提高生成质量。
技术框架:RMD框架主要包含以下几个阶段:1) 使用logSNR曲线划分每个分辨率的时间步间隔;2) 引入基于logSNR的映射来补偿分辨率引起的偏移;3) 沿着分辨率轨迹进行分布匹配,减小低分辨率生成器分布与高分辨率教师模型分布的差距;4) 在图像上采样过程中加入预测噪声重注入机制,以稳定训练并提高合成质量。整个框架采用多分辨率级联的方式进行推理,即先生成低分辨率图像,然后逐步上采样到高分辨率。
关键创新:本文最重要的技术创新点在于提出了跨分辨率分布匹配的方法。与现有方法相比,RMD框架能够更好地弥合低分辨率和高分辨率数据分布的差异,从而在加速推理的同时保持图像质量。此外,RMD框架还引入了预测噪声重注入机制,进一步提高了训练的稳定性和合成质量。
关键设计:在RMD框架中,logSNR曲线的划分方式、logSNR映射的具体形式、分布匹配的损失函数以及预测噪声重注入的比例等都是关键的设计参数。具体来说,logSNR曲线的划分需要根据不同的分辨率和模型进行调整,以保证每个分辨率的时间步间隔能够充分覆盖数据的分布。logSNR映射需要能够准确地补偿分辨率引起的偏移,以保证低分辨率生成器能够更好地学习高分辨率教师模型的分布。分布匹配的损失函数需要能够有效地减小低分辨率生成器分布与高分辨率教师模型分布的差距。预测噪声重注入的比例需要根据不同的模型和数据集进行调整,以保证训练的稳定性和合成质量。
🖼️ 关键图片
📊 实验亮点
RMD框架在SDXL上实现了高达33.4倍的加速,在Wan2.1-14B上实现了25.6倍的加速,同时保持了高视觉保真度。相比于现有方法,RMD能够在显著加速推理的同时,有效地弥合跨分辨率的分布差异,从而提高生成图像的质量。这些实验结果表明,RMD是一种非常有潜力的扩散模型蒸馏方法。
🎯 应用场景
该研究成果可广泛应用于图像和视频生成领域,尤其是在需要快速生成高质量图像的场景下,例如游戏开发、电影制作、广告设计等。通过RMD框架,可以显著加速扩散模型的推理速度,降低计算成本,并提高生成图像的视觉质量。此外,该方法还可以应用于图像超分辨率、图像修复等任务。
📄 摘要(原文)
Diffusion distillation is central to accelerating image and video generation, yet existing methods are fundamentally limited by the denoising process, where step reduction has largely saturated. Partial timestep low-resolution generation can further accelerate inference, but it suffers noticeable quality degradation due to cross-resolution distribution gaps. We propose Cross-Resolution Distribution Matching Distillation (RMD), a novel distillation framework that bridges cross-resolution distribution gaps for high-fidelity, few-step multi-resolution cascaded inference. Specifically, RMD divides the timestep intervals for each resolution using logarithmic signal-to-noise ratio (logSNR) curves, and introduces logSNR-based mapping to compensate for resolution-induced shifts. Distribution matching is conducted along resolution trajectories to reduce the gap between low-resolution generator distributions and the teacher's high-resolution distribution. In addition, a predicted-noise re-injection mechanism is incorporated during upsampling to stabilize training and improve synthesis quality. Quantitative and qualitative results show that RMD preserves high-fidelity generation while accelerating inference across various backbones. Notably, RMD achieves up to 33.4X speedup on SDXL and 25.6X on Wan2.1-14B, while preserving high visual fidelity.