Learnability-Guided Diffusion for Dataset Distillation

📄 arXiv: 2604.00519v1 📥 PDF

作者: Jeffrey A. Chan-Santiago, Mubarak Shah

分类: cs.CV

发布日期: 2026-04-01

备注: This paper has been accepted to CVPR 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出学习可指导的扩散方法以解决数据集蒸馏冗余问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 学习可用性 扩散模型 机器学习 计算机视觉

📋 核心要点

  1. 现有的数据集蒸馏方法在生成样本时存在冗余信号,导致样本间信息重叠,降低了训练效率。
  2. 本文提出学习可指导的蒸馏方法,通过学习可用性评分逐步生成合成数据集,优化样本的多样性和有效性。
  3. 实验表明,该方法减少了39.1%的冗余,并在多个数据集上达到了最先进的性能,显示出显著的提升。

📝 摘要(中文)

训练机器学习模型需要大量数据,成本高且耗时。数据集蒸馏通过生成小型合成数据集来实现与完整数据集相同的性能。现有方法使用扩散模型生成蒸馏数据,但存在冗余训练信号的问题。本文提出学习可指导的数据集蒸馏方法,通过逐步构建合成数据集,利用学习可用性评分指导样本生成,减少冗余并促进训练阶段的专业化。实验结果显示,该方法在ImageNet-1K、ImageNette和ImageWoof上均取得了最先进的结果。

🔬 方法详解

问题定义:现有的数据集蒸馏方法在生成样本时,往往优化视觉多样性或平均训练动态,导致样本间信息重叠,冗余信号严重,影响模型学习效率。

核心思路:本文提出的学习可指导的数据集蒸馏方法,通过学习可用性评分来指导样本生成,确保生成的样本能够为当前模型提供有效的学习信号,从而构建一个自适应的学习课程。

技术框架:该方法分为多个阶段,首先从小型样本集开始训练模型,然后根据学习可用性评分生成新的样本,确保新样本与当前模型的学习需求相匹配。

关键创新:最重要的创新在于引入学习可指导的扩散方法(LGD),它在生成样本时同时考虑当前模型的训练效用和参考模型的有效性,从而减少冗余并促进样本的专业化。

关键设计:在设计上,本文采用了特定的损失函数来平衡样本的多样性与有效性,并通过逐步生成的方式来优化样本集,确保每个阶段的样本都能为模型提供独特的学习信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,学习可指导的扩散方法在ImageNet-1K上达到了60.1%的准确率,在ImageNette和ImageWoof上分别达到了87.2%和72.9%。相比于现有方法,该方法减少了39.1%的冗余信号,显著提升了模型的训练效果。

🎯 应用场景

该研究的潜在应用领域包括计算机视觉、自动驾驶、医疗影像分析等领域,能够有效减少数据收集和标注的成本,同时提升模型的训练效率。未来,该方法有望在更广泛的机器学习任务中推广应用,推动智能系统的快速发展。

📄 摘要(原文)

Training machine learning models on massive datasets is expensive and time-consuming. Dataset distillation addresses this by creating a small synthetic dataset that achieves the same performance as the full dataset. Recent methods use diffusion models to generate distilled data, either by promoting diversity or matching training gradients. However, existing approaches produce redundant training signals, where samples convey overlapping information. Empirically, disjoint subsets of distilled datasets capture 80-90% overlapping signals. This redundancy stems from optimizing visual diversity or average training dynamics without accounting for similarity across samples, leading to datasets where multiple samples share similar information rather than complementary knowledge. We propose learnability-driven dataset distillation, which constructs synthetic datasets incrementally through successive stages. Starting from a small set, we train a model and generate new samples guided by learnability scores that identify what the current model can learn from, creating an adaptive curriculum. We introduce Learnability-Guided Diffusion (LGD), which balances training utility for the current model with validity under a reference model to generate curriculum-aligned samples. Our approach reduces redundancy by 39.1%, promotes specialization across training stages, and achieves state-of-the-art results on ImageNet-1K (60.1%), ImageNette (87.2%), and ImageWoof (72.9%). Our code is available on our project page https://jachansantiago.github.io/learnability-guided-distillation/.