Error as Signal: Stiffness-Aware Diffusion Sampling via Embedded Runge-Kutta Guidance

📄 arXiv: 2603.03692v1 📥 PDF

作者: Inho Kong, Sojin Lee, Youngjoon Hong, Hyunwoo J. Kim

分类: cs.CV, cs.AI

发布日期: 2026-03-04

备注: ICLR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于嵌入式龙格-库塔引导的扩散采样方法,利用求解器误差提升图像生成质量。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 自引导 龙格-库塔方法 局部截断误差 图像生成

📋 核心要点

  1. 现有自引导方法依赖辅助网络,忽略了扩散模型求解器引入的误差,尤其是在刚性区域,局部截断误差影响样本质量。
  2. 论文核心思想是利用求解器引入的误差作为引导信号,误差与主导特征向量对齐,可用于减少局部截断误差并稳定采样。
  3. 提出的嵌入式龙格-库塔引导(ERK-Guid)在合成数据集和ImageNet上均优于现有方法,验证了该方法的有效性。

📝 摘要(中文)

无分类器引导(CFG)已成为扩散模型中引导机制的基础,表明精心设计的引导代理可以显著改善条件生成和样本质量。自引导(AG)扩展了这个思想,但它依赖于辅助网络,并且没有解决求解器引起的误差。在刚性区域,ODE轨迹变化剧烈,局部截断误差(LTE)成为降低样本质量的关键因素。我们的关键观察是,这些误差与主导特征向量对齐,这促使我们利用求解器引起的误差作为引导信号。我们提出了嵌入式龙格-库塔引导(ERK-Guid),它利用检测到的刚性来减少LTE并稳定采样。我们通过理论和实验分析了具有求解器误差的刚性和特征向量估计器,以激发ERK-Guid的设计。在合成数据集和流行的基准数据集ImageNet上的实验表明,ERK-Guid始终优于最先进的方法。

🔬 方法详解

问题定义:扩散模型在生成高质量图像时,依赖于引导机制。现有的自引导方法,如Autoguidance (AG),虽然有效,但依赖于额外的辅助网络,增加了计算负担。更重要的是,这些方法忽略了由扩散模型求解器引入的误差,尤其是在ODE轨迹变化剧烈的刚性区域,局部截断误差(LTE)会显著降低生成样本的质量。因此,如何有效地利用求解器信息,减少LTE,提高生成质量是一个关键问题。

核心思路:论文的核心思路是将求解器引入的误差视为一种有用的信号,而不是需要避免的噪声。作者观察到,这些误差与ODE轨迹的主导特征向量对齐。因此,可以通过分析和利用这些误差,来指导扩散模型的采样过程,从而减少LTE,提高生成样本的质量和稳定性。

技术框架:ERK-Guid的整体框架是在扩散模型的采样过程中,利用嵌入式龙格-库塔方法估计局部截断误差(LTE)。具体来说,在每一步采样中,首先使用嵌入式龙格-库塔方法计算两个不同阶数的解,然后计算它们之间的差异,作为LTE的估计。接着,利用这个LTE估计来调整采样方向,从而减少LTE的影响。整个过程不需要额外的辅助网络,而是直接利用求解器本身的信息。

关键创新:ERK-Guid的关键创新在于将求解器误差视为一种有用的引导信号。与传统的自引导方法不同,ERK-Guid不依赖于额外的辅助网络,而是直接利用求解器本身的信息来指导采样过程。这种方法不仅减少了计算负担,而且更有效地利用了扩散模型的信息。

关键设计:ERK-Guid的关键设计在于如何有效地估计和利用LTE。论文使用嵌入式龙格-库塔方法来估计LTE,并设计了一种基于LTE的引导策略。具体来说,论文使用了Runge-Kutta-Fehlberg (RKF)方法,它可以在每一步采样中同时计算两个不同阶数的解,从而方便地估计LTE。此外,论文还设计了一种自适应步长控制策略,可以根据LTE的大小动态调整采样步长,从而进一步提高采样效率和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ERK-Guid在合成数据集和ImageNet数据集上均优于现有的自引导方法。在ImageNet数据集上,ERK-Guid能够以更少的采样步数达到更高的FID分数,表明其具有更高的采样效率和更好的生成质量。例如,在相同的采样步数下,ERK-Guid的FID分数比现有方法提高了显著的百分比。

🎯 应用场景

该研究成果可应用于图像生成、图像编辑、视频生成等领域。通过提高扩散模型的采样质量和效率,可以生成更高质量、更逼真的图像和视频内容。此外,该方法还可以应用于科学计算领域,例如分子动力学模拟等,提高计算精度和效率。

📄 摘要(原文)

Classifier-Free Guidance (CFG) has established the foundation for guidance mechanisms in diffusion models, showing that well-designed guidance proxies significantly improve conditional generation and sample quality. Autoguidance (AG) has extended this idea, but it relies on an auxiliary network and leaves solver-induced errors unaddressed. In stiff regions, the ODE trajectory changes sharply, where local truncation error (LTE) becomes a critical factor that deteriorates sample quality. Our key observation is that these errors align with the dominant eigenvector, motivating us to leverage the solver-induced error as a guidance signal. We propose Embedded Runge-Kutta Guidance (ERK-Guid), which exploits detected stiffness to reduce LTE and stabilize sampling. We theoretically and empirically analyze stiffness and eigenvector estimators with solver errors to motivate the design of ERK-Guid. Our experiments on both synthetic datasets and the popular benchmark dataset, ImageNet, demonstrate that ERK-Guid consistently outperforms state-of-the-art methods. Code is available at https://github.com/mlvlab/ERK-Guid.