Beyond I-Con: Exploring New Dimension of Distance Measures in Representation Learning
作者: Jasmine Shone, Zhening Li, Shaden Alshammari, Mark Hamilton, William Freeman
分类: cs.LG, cs.AI, cs.CV
发布日期: 2025-09-05 (更新: 2025-12-04)
💡 一句话要点
Beyond I-Con:探索表征学习中距离度量的新维度,提升聚类与降维效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 表征学习 对比学习 距离度量 KL散度 统计散度 无监督聚类 降维
📋 核心要点
- 现有表征学习方法常隐式地最小化KL散度,但KL散度的性质可能导致优化问题,且与真实目标不符。
- Beyond I-Con框架通过探索不同的统计散度,系统地发现新的损失函数,从而优化表征学习。
- 实验表明,使用TV距离改进PMI算法,JSD改进监督对比学习,有界f-散度改进降维,均取得显著效果。
📝 摘要(中文)
Information Contrastive (I-Con) 框架揭示,超过23种表征学习方法隐式地最小化数据分布与学习到的分布之间的KL散度,后者编码了数据点之间的相似性。然而,基于KL的损失可能与真实目标不一致,并且KL散度的非对称性和无界性可能带来优化挑战。我们提出了Beyond I-Con,一个通过探索替代统计散度来系统发现新损失函数的框架。主要发现包括:(1)在DINO-ViT嵌入的无监督聚类上,通过修改PMI算法以使用全变差(TV)距离,我们实现了最先进的结果;(2)通过用Jenson-Shannon散度(JSD)替换标准损失函数,改进了以欧几里得距离作为特征空间度量的监督对比学习;(3)在降维方面,通过用有界的$f$-散度替换KL散度,我们实现了优于SNE的定性结果和更好的下游任务性能。我们的结果强调了在表征学习优化中考虑散度选择的重要性。
🔬 方法详解
问题定义:现有的表征学习方法,特别是基于对比学习的方法,通常依赖于最小化数据分布和学习到的表征分布之间的KL散度。然而,KL散度本身具有非对称性和无界性,这可能导致优化困难,并且KL散度可能无法准确反映数据之间的真实相似性关系,从而限制了表征学习的性能。因此,需要探索替代的距离度量方式来改进表征学习。
核心思路:Beyond I-Con的核心思路是跳出KL散度的局限,探索更广泛的统计散度作为表征学习的损失函数。通过系统地评估不同的散度,例如全变差(TV)距离、Jenson-Shannon散度(JSD)和有界$f$-散度,来寻找更适合特定任务和数据集的距离度量方式。这种方法旨在克服KL散度的缺点,并发现能够产生更好表征的损失函数。
技术框架:Beyond I-Con框架主要包含以下几个阶段:1. 选择合适的表征学习任务,例如无监督聚类、监督对比学习和降维。2. 针对每个任务,选择一种或多种现有的基于KL散度的损失函数作为基线。3. 将KL散度替换为其他统计散度,例如TV距离、JSD或有界$f$-散度。4. 在相同的数据集和实验设置下,比较使用不同散度的损失函数的性能。5. 分析实验结果,确定哪些散度在哪些任务上表现更好,并解释其原因。
关键创新:该论文的关键创新在于提出了一个系统性的框架,用于探索表征学习中距离度量的新维度。它不再局限于传统的KL散度,而是将目光投向了更广泛的统计散度,并证明了通过选择合适的散度,可以显著提高表征学习的性能。与现有方法的本质区别在于,它不是专注于改进现有的基于KL散度的损失函数,而是从根本上改变了距离度量的选择。
关键设计:在无监督聚类中,作者修改了PMI算法,将KL散度替换为全变差(TV)距离。在监督对比学习中,作者将标准损失函数替换为Jenson-Shannon散度(JSD)。在降维方面,作者用有界的$f$-散度替换了KL散度。这些替换的关键在于选择与特定任务和数据集特性相匹配的散度。例如,TV距离对异常值更鲁棒,JSD是对称的,有界$f$-散度可以避免梯度消失问题。
📊 实验亮点
实验结果表明,在DINO-ViT嵌入的无监督聚类上,使用TV距离改进的PMI算法取得了最先进的结果。在监督对比学习中,使用JSD替换标准损失函数后,性能得到了提升。在降维方面,使用有界的$f$-散度替换KL散度后,获得了优于SNE的定性结果和更好的下游任务性能。这些结果表明,选择合适的距离度量方式对于表征学习至关重要。
🎯 应用场景
该研究成果可广泛应用于计算机视觉、自然语言处理等领域,例如图像分类、目标检测、语义分割、文本聚类、机器翻译等。通过选择合适的距离度量方式,可以提高模型的泛化能力和鲁棒性,从而在实际应用中获得更好的性能。未来,该研究可以进一步探索更多类型的统计散度,并将其应用于更广泛的表征学习任务。
📄 摘要(原文)
The Information Contrastive (I-Con) framework revealed that over 23 representation learning methods implicitly minimize KL divergence between data and learned distributions that encode similarities between data points. However, a KL-based loss may be misaligned with the true objective, and properties of KL divergence such as asymmetry and unboundedness may create optimization challenges. We present Beyond I-Con, a framework that enables systematic discovery of novel loss functions by exploring alternative statistical divergences. Key findings: (1) on unsupervised clustering of DINO-ViT embeddings, we achieve state-of-the-art results by modifying the PMI algorithm to use total variation (TV) distance; (2) supervised contrastive learning with Euclidean distance as the feature space metric is improved by replacing the standard loss function with Jenson-Shannon divergence (JSD); (3) on dimensionality reduction, we achieve superior qualitative results and better performance on downstream tasks than SNE by replacing KL with a bounded $f$-divergence. Our results highlight the importance of considering divergence choices in representation learning optimization.