Towards Principled Dataset Distillation: A Spectral Distribution Perspective

📄 arXiv: 2603.01698v1 📥 PDF

作者: Ruixi Wu, Shaobo Wang, Jiahuan Chen, Zhiyuan Liu, Yicun Yang, Zhaorun Chen, Zekai Li, Kaixin Li, Xinming Wang, Hongzhu Yi, Kai Wang, Linfeng Zhang

分类: cs.CV, cs.AI

发布日期: 2026-03-02

备注: 30 pages, 5 tables, 4 figures


💡 一句话要点

提出类感知谱分布匹配(CSDM)方法,解决数据集蒸馏在长尾数据集上的性能退化问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 长尾学习 谱分析 分布匹配 类别不平衡

📋 核心要点

  1. 现有数据集蒸馏方法在长尾数据集上性能显著下降,主要原因是分布差异度量的启发式设计和对不平衡类别的统一处理。
  2. 论文提出类感知谱分布匹配(CSDM)方法,通过谱分析将样本映射到频率空间,并自适应地处理类别不平衡问题。
  3. 实验结果表明,CSDM在长尾数据集上显著优于现有方法,并在类别极度不平衡的情况下表现出良好的稳定性。

📝 摘要(中文)

数据集蒸馏(DD)旨在将大规模数据集压缩为紧凑的合成数据集,以实现高效的模型训练。然而,现有的DD方法在长尾数据集上表现出显著的性能下降。我们发现了两个根本性挑战:分布差异度量的启发式设计选择以及对不平衡类别的统一处理。为了解决这些限制,我们提出了类感知谱分布匹配(CSDM),它通过一个良好核函数的频谱来重新构建分布对齐。该技术将原始样本映射到频率空间,从而产生谱分布距离(SDD)。为了缓解类别不平衡,我们利用SDD的统一形式来执行幅度-相位分解,从而自适应地优先考虑尾部类别的真实性。在CIFAR-10-LT上,每个类别10张图像,CSDM比最先进的DD方法提高了14.0%,当尾部类别的图像数量从500减少到25时,性能仅下降5.7%,表明在长尾数据上具有很强的稳定性。

🔬 方法详解

问题定义:数据集蒸馏旨在用少量合成数据替代原始大数据集,以加速模型训练。然而,现有方法在长尾数据集上表现不佳,因为它们通常采用启发式的分布差异度量,并且忽略了类别之间的不平衡性,导致模型在尾部类别上的泛化能力差。

核心思路:论文的核心思路是将分布匹配问题转换到谱域进行分析。通过将数据映射到频率空间,可以更有效地捕捉数据分布的全局结构,并利用谱分解来区分不同类别的重要性。此外,通过幅度-相位分解,可以自适应地调整尾部类别的权重,从而缓解类别不平衡问题。

技术框架:CSDM方法主要包含以下几个阶段:1) 使用核函数将原始数据映射到高维空间;2) 计算高维空间中数据分布的频谱表示;3) 定义谱分布距离(SDD)来衡量原始数据集和合成数据集之间的分布差异;4) 利用幅度-相位分解来调整不同类别的权重,特别关注尾部类别;5) 使用优化算法最小化SDD,从而生成具有代表性的合成数据集。

关键创新:该方法最重要的创新点在于将谱分析引入到数据集蒸馏中,并提出了类感知的谱分布匹配方法。与传统的基于像素或特征空间的距离度量相比,谱分布距离能够更好地捕捉数据分布的全局结构,并且对噪声和异常值具有更强的鲁棒性。此外,幅度-相位分解能够自适应地调整不同类别的权重,从而有效地缓解类别不平衡问题。

关键设计:CSDM的关键设计包括:1) 选择合适的核函数,例如高斯核或多项式核,以将数据映射到高维空间;2) 定义谱分布距离SDD,例如基于Wasserstein距离或MMD距离的谱域变体;3) 设计幅度-相位分解策略,例如基于类别频率的加权方法;4) 选择合适的优化算法,例如Adam或SGD,来最小化SDD并生成合成数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CSDM在CIFAR-10-LT数据集上取得了显著的性能提升。在每个类别10张图像的情况下,CSDM比最先进的DD方法提高了14.0%。更重要的是,当尾部类别的图像数量从500减少到25时,CSDM的性能仅下降5.7%,表明其在极度不平衡的数据集上具有很强的鲁棒性和稳定性。

🎯 应用场景

该研究成果可应用于各种需要高效模型训练的场景,尤其是在数据量大、类别不平衡的情况下,例如自动驾驶、医疗诊断、金融风控等领域。通过使用蒸馏后的数据集,可以显著降低训练成本,提高模型部署效率,并提升模型在尾部类别上的性能。

📄 摘要(原文)

Dataset distillation (DD) aims to compress large-scale datasets into compact synthetic counterparts for efficient model training. However, existing DD methods exhibit substantial performance degradation on long-tailed datasets. We identify two fundamental challenges: heuristic design choices for distribution discrepancy measure and uniform treatment of imbalanced classes. To address these limitations, we propose Class-Aware Spectral Distribution Matching (CSDM), which reformulates distribution alignment via the spectrum of a well-behaved kernel function. This technique maps the original samples into frequency space, resulting in the Spectral Distribution Distance (SDD). To mitigate class imbalance, we exploit the unified form of SDD to perform amplitude-phase decomposition, which adaptively prioritizes the realism in tail classes. On CIFAR-10-LT, with 10 images per class, CSDM achieves a 14.0% improvement over state-of-the-art DD methods, with only a 5.7% performance drop when the number of images in tail classes decreases from 500 to 25, demonstrating strong stability on long-tailed data.