Vector-Quantized Soft Label Compression for Dataset Distillation

📄 arXiv: 2603.03808v1 📥 PDF

作者: Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash, Soheil Kolouri

分类: cs.CV

发布日期: 2026-03-04


💡 一句话要点

提出基于向量量化自编码器的软标签压缩方法,用于加速数据集蒸馏并降低存储开销。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 数据集蒸馏 软标签压缩 向量量化 自编码器 知识蒸馏

📋 核心要点

  1. 数据集蒸馏通过合成少量数据来降低训练成本,但软标签的存储开销成为瓶颈,尤其是在大规模数据集上。
  2. 论文提出使用向量量化自编码器(VQAE)压缩软标签,旨在大幅降低存储需求,同时保持蒸馏数据集的有效性。
  3. 实验表明,在 ImageNet-1K 上,VQAE 实现了 30-40 倍的压缩,同时性能损失小于 10%,显著优于现有方法。

📝 摘要(中文)

数据集蒸馏是一种新兴技术,旨在通过合成小而信息丰富的子集来降低训练机器学习模型的计算和存储成本,该子集能够捕捉到大型数据集的基本特征。最近的方法将合成样本及其增强与来自教师模型的软标签配对,使学生模型即使在蒸馏数据集很小的情况下也能有效地泛化。虽然软标签对于有效的蒸馏至关重要,但它们产生的存储和通信开销,尤其是在考虑增强时,经常被忽视。在实践中,每个蒸馏样本都与多个软标签相关联,这使得它们成为存储成本的主要贡献者,尤其是在像 ImageNet-1K 这样的大类设置中。本文对数据集蒸馏框架中的比特需求进行了严格的分析,量化了蒸馏样本及其软标签的存储需求。为了解决开销问题,我们提出了一种用于压缩软标签的向量量化自编码器 (VQAE),在保持蒸馏数据有效性的同时实现了显着的压缩。我们在视觉和语言蒸馏基准上验证了我们的方法。在 ImageNet-1K 上,我们提出的 VQAE 比 RDED、LPLD、SRE2L 和 CDA 基线实现了 30-40 倍的额外压缩,同时保留了超过 90% 的原始性能。

🔬 方法详解

问题定义:数据集蒸馏旨在用少量合成数据替代原始大数据集进行模型训练,以降低计算和存储成本。然而,为了保证蒸馏效果,通常需要存储大量的软标签,特别是当使用数据增强时,软标签的存储开销变得非常显著,尤其是在类别数量庞大的数据集上,这限制了数据集蒸馏的实际应用。现有方法通常忽略了软标签压缩带来的收益。

核心思路:论文的核心思路是利用向量量化自编码器(VQAE)对软标签进行压缩,从而显著降低存储开销。VQAE 通过学习一个离散的码本,将连续的软标签向量映射到码本中的一个索引,从而实现高效的压缩。这种方法能够在保持软标签信息的同时,大幅减少存储空间。

技术框架:整体框架包含三个主要部分:首先,使用教师模型生成软标签;然后,使用 VQAE 对软标签进行压缩,得到压缩后的码本索引;最后,使用压缩后的软标签训练学生模型。VQAE 的训练目标是最小化重构误差,确保压缩后的软标签能够尽可能地保留原始信息。学生模型使用压缩后的软标签进行训练,目标是尽可能地逼近教师模型的性能。

关键创新:论文的关键创新在于将向量量化自编码器应用于软标签压缩,并将其与数据集蒸馏框架相结合。与传统的压缩方法相比,VQAE 能够更好地保留软标签中的信息,从而保证蒸馏数据集的有效性。此外,论文还对数据集蒸馏框架中的比特需求进行了详细的分析,为软标签压缩提供了理论依据。

关键设计:VQAE 的网络结构包括编码器、码本和解码器。编码器将软标签向量映射到一个潜在空间,码本包含一组离散的向量,解码器将码本中的向量重构为原始的软标签向量。损失函数包括重构损失和量化损失,重构损失用于保证重构的准确性,量化损失用于鼓励编码器输出的向量靠近码本中的向量。码本的大小是一个关键的参数,需要根据数据集的大小和压缩率进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在 ImageNet-1K 数据集上,提出的 VQAE 方法能够实现 30-40 倍的压缩率,同时保持超过 90% 的原始性能。与 RDED、LPLD、SRE2L 和 CDA 等基线方法相比,VQAE 在压缩率和性能保持方面都取得了显著的优势。这些结果验证了 VQAE 在软标签压缩方面的有效性,并为数据集蒸馏的实际应用提供了有力的支持。

🎯 应用场景

该研究成果可广泛应用于需要降低数据存储和传输成本的机器学习场景,例如边缘计算、移动设备上的模型部署以及大规模数据集的分布式训练。通过压缩软标签,可以显著减少数据集蒸馏的存储开销,使得在资源受限的环境中也能高效地训练模型。此外,该方法还可以应用于其他需要压缩高维向量数据的领域。

📄 摘要(原文)

Dataset distillation is an emerging technique for reducing the computational and storage costs of training machine learning models by synthesizing a small, informative subset of data that captures the essential characteristics of a much larger dataset. Recent methods pair synthetic samples and their augmentations with soft labels from a teacher model, enabling student models to generalize effectively despite the small size of the distilled dataset. While soft labels are critical for effective distillation, the storage and communication overhead they incur, especially when accounting for augmentations, is often overlooked. In practice, each distilled sample is associated with multiple soft labels, making them the dominant contributor to storage costs, particularly in large-class settings such as ImageNet-1K. In this paper, we present a rigorous analysis of bit requirements across dataset distillation frameworks, quantifying the storage demands of both distilled samples and their soft labels. To address the overhead, we introduce a vector-quantized autoencoder (VQAE) for compressing soft labels, achieving substantial compression while preserving the effectiveness of the distilled data. We validate our method on both vision and language distillation benchmarks. On ImageNet-1K, our proposed VQAE achieves 30--40x additional compression over RDED, LPLD, SRE2L, and CDA baselines while retaining over $90\%$ of their original performance.