On the Diversity and Realism of Distilled Dataset: An Efficient Dataset Distillation Paradigm

📄 arXiv: 2312.03526v2 📥 PDF

作者: Peng Sun, Bei Shi, Daiwei Yu, Tao Lin

分类: cs.CV, cs.AI, cs.LG

发布日期: 2023-12-06 (更新: 2024-03-19)

备注: 17 pages, 20 figures


💡 一句话要点

提出RDED:一种高效的数据集蒸馏范式,提升蒸馏数据集的多样性和真实性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 数据压缩 高效训练 图像生成 深度学习

📋 核心要点

  1. 现有数据集蒸馏方法难以兼顾大规模、高分辨率数据集的真实性、多样性和效率,限制了实际应用。
  2. RDED通过一种计算高效的数据蒸馏范式,旨在提升蒸馏数据集的真实性和多样性,从而解决上述问题。
  3. 实验表明,RDED能在极短时间内将ImageNet-1K蒸馏成小数据集,并在ResNet-18上取得显著的精度提升。

📝 摘要(中文)

当前机器学习需要在海量数据集上训练大型神经网络,面临着高计算需求的挑战。数据集蒸馏作为一种新兴策略,旨在压缩真实世界的数据集以实现高效训练。然而,该领域的研究目前在处理大规模和高分辨率数据集时面临困难,阻碍了其可行性和实用性。为此,我们重新审视了现有的数据集蒸馏方法,并确定了大规模真实世界应用所需的三个属性,即真实性、多样性和效率。作为补救,我们提出RDED,一种新颖的、计算高效且有效的数据蒸馏范式,以实现蒸馏数据的多样性和真实性。在各种神经架构和数据集上的大量实验结果表明了RDED的进步:我们可以在7分钟内将完整的ImageNet-1K数据集蒸馏成一个包含每类10张图像的小数据集,在使用单个RTX-4090 GPU的ResNet-18上实现了显著的42%的top-1准确率(而SOTA方法仅达到21%,但需要6小时)。

🔬 方法详解

问题定义:论文旨在解决现有数据集蒸馏方法在大规模数据集上效率低、难以保证蒸馏数据集的真实性和多样性的问题。现有方法通常计算成本高昂,难以应用于ImageNet等大型数据集,并且蒸馏出的数据往往缺乏真实感,影响模型训练效果。

核心思路:论文的核心思路是通过一种高效的蒸馏范式,在保证计算效率的同时,提升蒸馏数据集的真实性和多样性。具体而言,RDED旨在生成更具代表性和泛化能力的合成数据,从而使模型能够从小规模蒸馏数据集中学习到与在原始大规模数据集上训练相似的性能。

技术框架:RDED的整体框架包含数据生成和模型训练两个主要阶段。在数据生成阶段,RDED利用一种高效的算法来生成具有多样性和真实性的合成图像。在模型训练阶段,使用生成的合成图像来训练目标模型。具体流程可能涉及对抗训练、元学习或其他优化策略,以提高蒸馏数据的质量和模型的泛化能力。(具体细节需要参考论文正文)

关键创新:RDED的关键创新在于其高效的数据蒸馏范式,该范式能够在保证计算效率的同时,显著提升蒸馏数据集的真实性和多样性。与现有方法相比,RDED可能采用了一种更有效的优化算法或数据生成策略,从而能够在更短的时间内生成更高质量的蒸馏数据集。

关键设计:具体的技术细节(如损失函数、网络结构、参数设置等)在摘要中未提及,需要参考论文正文。可能涉及的关键设计包括:用于生成合成图像的生成器网络结构、用于评估蒸馏数据质量的判别器网络结构、用于优化生成器和判别器的损失函数、以及用于控制蒸馏数据多样性和真实性的参数设置。这些细节的设计直接影响着RDED的性能和效率。

📊 实验亮点

RDED在ImageNet-1K数据集上取得了显著的性能提升。使用单个RTX-4090 GPU,RDED仅用7分钟就将ImageNet-1K蒸馏成每类10张图像的小数据集,并在ResNet-18上实现了42%的top-1准确率,而SOTA方法需要6小时才能达到21%的准确率。这表明RDED在效率和性能上均优于现有方法。

🎯 应用场景

该研究成果可应用于资源受限场景下的模型训练,例如移动设备或边缘计算设备。通过数据集蒸馏,可以将大型数据集压缩成小规模数据集,从而降低模型训练的计算成本和存储需求。此外,该技术还可用于数据隐私保护,通过蒸馏生成合成数据,避免直接使用原始敏感数据进行模型训练。

📄 摘要(原文)

Contemporary machine learning requires training large neural networks on massive datasets and thus faces the challenges of high computational demands. Dataset distillation, as a recent emerging strategy, aims to compress real-world datasets for efficient training. However, this line of research currently struggle with large-scale and high-resolution datasets, hindering its practicality and feasibility. To this end, we re-examine the existing dataset distillation methods and identify three properties required for large-scale real-world applications, namely, realism, diversity, and efficiency. As a remedy, we propose RDED, a novel computationally-efficient yet effective data distillation paradigm, to enable both diversity and realism of the distilled data. Extensive empirical results over various neural architectures and datasets demonstrate the advancement of RDED: we can distill the full ImageNet-1K to a small dataset comprising 10 images per class within 7 minutes, achieving a notable 42% top-1 accuracy with ResNet-18 on a single RTX-4090 GPU (while the SOTA only achieves 21% but requires 6 hours).