Bridging Diffusion Guidance and Anderson Acceleration via Hopfield Dynamics

📄 arXiv: 2603.02531v1 📥 PDF

作者: Kwanyoung Kim

分类: cs.LG, cs.AI

发布日期: 2026-03-03

备注: 24 pages, 11 figures


💡 一句话要点

通过Hopfield动态桥接扩散引导与Anderson加速,提升生成质量。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 扩散模型 注意力机制 Hopfield网络 Anderson加速 生成模型 无分类器引导 几何感知 图像生成

📋 核心要点

  1. 无分类器引导(CFG)计算成本高,且不适用于蒸馏模型,注意力空间外推缺乏理论基础。
  2. 将注意力动态建模为Hopfield网络中的不动点迭代,并证明注意力空间外推是Anderson加速的特例。
  3. 提出几何感知注意力引导(GAG),通过分解注意力更新来稳定加速过程,提高生成质量。

📝 摘要(中文)

无分类器引导(CFG)通过在条件和无条件输出之间进行外推,显著提高了扩散模型的生成质量。然而,其高推理成本和对蒸馏或单步模型的有限适用性,已将研究重点转移到注意力空间外推。虽然这些方法提供了计算效率,但其理论基础仍然难以捉摸。本文通过将注意力动态建模为现代Hopfield网络中的不动点迭代,为注意力空间外推建立了一个基础框架。我们证明了注意力空间中的外推效应构成了应用于这些动态的Anderson加速的一个特例。基于这一洞察和弱收缩特性,我们提出了几何感知注意力引导(GAG)。通过将注意力更新分解为相对于引导方向的平行和正交分量,GAG稳定了加速过程并最大化了引导效率。我们的即插即用方法与现有框架无缝集成,同时显著提高了生成质量。

🔬 方法详解

问题定义:现有扩散模型中,无分类器引导(CFG)虽然能提升生成质量,但推理成本高,且难以应用于蒸馏或单步模型。注意力空间外推方法虽然计算效率高,但缺乏坚实的理论基础,难以指导进一步的优化设计。

核心思路:论文的核心思路是将注意力机制的动态过程视为现代Hopfield网络中的不动点迭代,并证明注意力空间中的外推效应实际上是Anderson加速的一种特殊形式。通过这种方式,将注意力引导与成熟的优化理论联系起来,为注意力引导方法提供了理论支撑。

技术框架:论文提出的Geometry Aware Attention Guidance (GAG)方法,首先将注意力更新分解为平行于引导方向和垂直于引导方向的两个分量。然后,通过这种分解,可以更好地控制加速过程,避免不稳定现象。GAG方法可以作为一个即插即用的模块,集成到现有的扩散模型框架中。

关键创新:最重要的技术创新点在于建立了注意力空间外推与Anderson加速之间的联系。通过将注意力动态建模为Hopfield网络,并证明注意力引导是Anderson加速的特例,为注意力引导方法提供了理论依据。GAG方法通过几何分解,稳定了加速过程,提高了引导效率。

关键设计:GAG的关键设计在于将注意力更新分解为平行和正交分量。这种分解允许独立地控制每个分量的更新,从而稳定加速过程。具体来说,通过调整平行分量的权重,可以控制引导的强度;通过调整正交分量的权重,可以避免过度加速导致的不稳定。

📊 实验亮点

论文提出的GAG方法能够显著提高扩散模型的生成质量,同时保持较高的计算效率。实验结果表明,GAG方法在多个数据集上都取得了优于现有方法的性能,尤其是在生成图像的清晰度和细节方面有显著提升。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于图像生成、视频生成等领域,尤其是在需要高效推理和高质量生成的场景下。通过GAG方法,可以在不显著增加计算成本的前提下,提升生成图像的质量和多样性。此外,该研究为注意力机制的理解和优化提供了新的视角,有助于未来开发更高效、更稳定的生成模型。

📄 摘要(原文)

Classifier-Free Guidance (CFG) has significantly enhanced the generative quality of diffusion models by extrapolating between conditional and unconditional outputs. However, its high inference cost and limited applicability to distilled or single-step models have shifted research focus toward attention-space extrapolation. While these methods offer computational efficiency, their theoretical underpinnings remain elusive. In this work, we establish a foundational framework for attention-space extrapolation by modeling attention dynamics as fixed-point iterations within Modern Hopfield Networks. We demonstrate that the extrapolation effect in attention space constitutes a special case of Anderson Acceleration applied to these dynamics. Building on this insight and the weak contraction property, we propose Geometry Aware Attention Guidance (GAG). By decomposing attention updates into parallel and orthogonal components relative to the guidance direction, GAG stabilizes the acceleration process and maximizes guidance efficiency. Our plug-and-play method seamlessly integrates with existing frameworks while significantly improving generation quality.