DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

📄 arXiv: 2603.04239v1 📥 PDF

作者: Mengping Yang, Zhiyu Tan, Binglei Li, Xiaomeng Yang, Hesen Chen, Hao Li

分类: cs.CV

发布日期: 2026-03-04

备注: To appear in CVPR 2026, GitHub Code: https://github.com/kobeshegu/DiverseDiT, Project Page: https://forevermamba.work/projects/DiverseDiT/


💡 一句话要点

DiverseDiT:通过扩散Transformer中的多样性表示学习提升图像合成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散模型 Transformer 表示学习 图像生成 多样性 残差连接 损失函数

📋 核心要点

  1. 现有DiT方法在表示学习方面存在不足,未能充分理解和利用模型内部表示的多样性。
  2. DiverseDiT通过引入长残差连接和表示多样性损失,显式地促进模型内部表示的多样性。
  3. 实验表明,DiverseDiT在不同骨干网络和图像分辨率下均能提升性能,并加速模型收敛。

📝 摘要(中文)

扩散Transformer(DiT)凭借其卓越的可扩展性,彻底改变了视觉合成领域。为了增强DiT捕获有意义内部表示的能力,诸如REPA等工作融入了外部预训练编码器以进行表示对齐。然而,DiT内部表示学习的潜在机制尚未被充分理解。为此,我们首先系统地研究了DiT的表示动态。通过分析各种设置下内部表示的演变和影响,我们发现跨块的表示多样性是有效学习的关键因素。基于这一关键洞察,我们提出了DiverseDiT,一种显式促进表示多样性的新框架。DiverseDiT结合了长残差连接以实现跨块的输入表示多样化,并引入了表示多样性损失以鼓励块学习不同的特征。在ImageNet 256x256和512x512上的大量实验表明,我们的DiverseDiT在应用于不同大小的不同骨干网络时,即使在具有挑战性的一步生成设置中,也能产生一致的性能提升和收敛加速。此外,我们表明DiverseDiT与现有的表示学习技术是互补的,从而带来进一步的性能提升。我们的工作为DiT的表示学习动态提供了宝贵的见解,并为提高其性能提供了一种实用的方法。

🔬 方法详解

问题定义:论文旨在解决扩散Transformer(DiT)中表示学习效率低下的问题。现有方法,如REPA,虽然尝试通过外部预训练编码器对齐表示,但未能深入理解DiT内部表示的动态特性,特别是表示多样性的重要性。因此,DiT模型可能学习到冗余或缺乏区分性的特征,限制了其生成能力。

核心思路:论文的核心思路是提升DiT模型内部表示的多样性。作者通过研究发现,不同Transformer块学习到的表示如果足够多样,将有助于模型更好地捕捉图像的复杂特征,从而提升生成质量和收敛速度。因此,论文提出显式地促进表示多样性,而非仅仅依赖隐式的学习过程。

技术框架:DiverseDiT的整体框架基于标准的扩散Transformer架构,主要包含以下两个关键模块:1) 长残差连接:将浅层块的输入直接连接到深层块,以增加输入表示的多样性。2) 表示多样性损失:在训练过程中,计算不同Transformer块输出表示之间的差异,并将其作为损失函数的一部分,鼓励各个块学习不同的特征。

关键创新:该论文最重要的创新在于发现了DiT中表示多样性的重要性,并提出了相应的解决方案。与现有方法不同,DiverseDiT不是简单地对齐表示,而是主动地促进表示的多样化,从而更有效地利用模型的能力。

关键设计:长残差连接的设计是将第l层的输入直接加到第l+k层,k是一个超参数,控制连接的跳跃距离。表示多样性损失的设计是计算不同层输出特征的余弦相似度,并最小化该相似度。具体来说,损失函数定义为:L_diversity = Σ cos_sim(F_i, F_j),其中F_i和F_j是不同Transformer块的输出特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DiverseDiT在ImageNet 256x256和512x512数据集上均取得了显著的性能提升。例如,在ImageNet 256x256上,DiverseDiT相较于基线模型,FID分数降低了约1-2个点,并且收敛速度更快。即使在具有挑战性的一步生成设置中,DiverseDiT也表现出优越的性能,证明了其有效性和鲁棒性。

🎯 应用场景

DiverseDiT的研究成果可广泛应用于图像生成、图像编辑、视频合成等领域。通过提升生成模型的质量和效率,可以降低创作成本,提高内容生产效率。此外,该方法对于理解和改进其他类型的Transformer模型也具有借鉴意义,例如在自然语言处理领域的应用。

📄 摘要(原文)

Recent breakthroughs in Diffusion Transformers (DiTs) have revolutionized the field of visual synthesis due to their superior scalability. To facilitate DiTs' capability of capturing meaningful internal representations, recent works such as REPA incorporate external pretrained encoders for representation alignment. However, the underlying mechanisms governing representation learning within DiTs are not well understood. To this end, we first systematically investigate the representation dynamics of DiTs. Through analyzing the evolution and influence of internal representations under various settings, we reveal that representation diversity across blocks is a crucial factor for effective learning. Based on this key insight, we propose DiverseDiT, a novel framework that explicitly promotes representation diversity. DiverseDiT incorporates long residual connections to diversify input representations across blocks and a representation diversity loss to encourage blocks to learn distinct features. Extensive experiments on ImageNet 256x256 and 512x512 demonstrate that our DiverseDiT yields consistent performance gains and convergence acceleration when applied to different backbones with various sizes, even when tested on the challenging one-step generation setting. Furthermore, we show that DiverseDiT is complementary to existing representation learning techniques, leading to further performance gains. Our work provides valuable insights into the representation learning dynamics of DiTs and offers a practical approach for enhancing their performance.