Beyond I-Con: Exploring New Dimension of Distance Measures in Representation Learning

作者: Jasmine Shone, Zhening Li, Shaden Alshammari, Mark Hamilton, William Freeman

分类: cs.LG, cs.AI, cs.CV

发布日期: 2025-09-05 (更新: 2025-12-04)

💡 一句话要点

Beyond I-Con：探索表征学习中距离度量的新维度，提升聚类与降维效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 表征学习 对比学习 距离度量 KL散度 统计散度 无监督聚类 降维

📋 核心要点

现有表征学习方法常隐式地最小化KL散度，但KL散度的性质可能导致优化问题，且与真实目标不符。
Beyond I-Con框架通过探索不同的统计散度，系统地发现新的损失函数，从而优化表征学习。
实验表明，使用TV距离改进PMI算法，JSD改进监督对比学习，有界f-散度改进降维，均取得显著效果。

📝 摘要（中文）

Information Contrastive (I-Con) 框架揭示，超过23种表征学习方法隐式地最小化数据分布与学习到的分布之间的KL散度，后者编码了数据点之间的相似性。然而，基于KL的损失可能与真实目标不一致，并且KL散度的非对称性和无界性可能带来优化挑战。我们提出了Beyond I-Con，一个通过探索替代统计散度来系统发现新损失函数的框架。主要发现包括：（1）在DINO-ViT嵌入的无监督聚类上，通过修改PMI算法以使用全变差(TV)距离，我们实现了最先进的结果；（2）通过用Jenson-Shannon散度(JSD)替换标准损失函数，改进了以欧几里得距离作为特征空间度量的监督对比学习；（3）在降维方面，通过用有界的$f$-散度替换KL散度，我们实现了优于SNE的定性结果和更好的下游任务性能。我们的结果强调了在表征学习优化中考虑散度选择的重要性。

🔬 方法详解

问题定义：现有的表征学习方法，特别是基于对比学习的方法，通常依赖于最小化数据分布和学习到的表征分布之间的KL散度。然而，KL散度本身具有非对称性和无界性，这可能导致优化困难，并且KL散度可能无法准确反映数据之间的真实相似性关系，从而限制了表征学习的性能。因此，需要探索替代的距离度量方式来改进表征学习。

核心思路：Beyond I-Con的核心思路是跳出KL散度的局限，探索更广泛的统计散度作为表征学习的损失函数。通过系统地评估不同的散度，例如全变差(TV)距离、Jenson-Shannon散度(JSD)和有界$f$-散度，来寻找更适合特定任务和数据集的距离度量方式。这种方法旨在克服KL散度的缺点，并发现能够产生更好表征的损失函数。

技术框架：Beyond I-Con框架主要包含以下几个阶段：1. 选择合适的表征学习任务，例如无监督聚类、监督对比学习和降维。2. 针对每个任务，选择一种或多种现有的基于KL散度的损失函数作为基线。3. 将KL散度替换为其他统计散度，例如TV距离、JSD或有界$f$-散度。4. 在相同的数据集和实验设置下，比较使用不同散度的损失函数的性能。5. 分析实验结果，确定哪些散度在哪些任务上表现更好，并解释其原因。

关键创新：该论文的关键创新在于提出了一个系统性的框架，用于探索表征学习中距离度量的新维度。它不再局限于传统的KL散度，而是将目光投向了更广泛的统计散度，并证明了通过选择合适的散度，可以显著提高表征学习的性能。与现有方法的本质区别在于，它不是专注于改进现有的基于KL散度的损失函数，而是从根本上改变了距离度量的选择。

关键设计：在无监督聚类中，作者修改了PMI算法，将KL散度替换为全变差(TV)距离。在监督对比学习中，作者将标准损失函数替换为Jenson-Shannon散度(JSD)。在降维方面，作者用有界的$f$-散度替换了KL散度。这些替换的关键在于选择与特定任务和数据集特性相匹配的散度。例如，TV距离对异常值更鲁棒，JSD是对称的，有界$f$-散度可以避免梯度消失问题。

📊 实验亮点

实验结果表明，在DINO-ViT嵌入的无监督聚类上，使用TV距离改进的PMI算法取得了最先进的结果。在监督对比学习中，使用JSD替换标准损失函数后，性能得到了提升。在降维方面，使用有界的$f$-散度替换KL散度后，获得了优于SNE的定性结果和更好的下游任务性能。这些结果表明，选择合适的距离度量方式对于表征学习至关重要。

🎯 应用场景

该研究成果可广泛应用于计算机视觉、自然语言处理等领域，例如图像分类、目标检测、语义分割、文本聚类、机器翻译等。通过选择合适的距离度量方式，可以提高模型的泛化能力和鲁棒性，从而在实际应用中获得更好的性能。未来，该研究可以进一步探索更多类型的统计散度，并将其应用于更广泛的表征学习任务。

📄 摘要（原文）

The Information Contrastive (I-Con) framework revealed that over 23 representation learning methods implicitly minimize KL divergence between data and learned distributions that encode similarities between data points. However, a KL-based loss may be misaligned with the true objective, and properties of KL divergence such as asymmetry and unboundedness may create optimization challenges. We present Beyond I-Con, a framework that enables systematic discovery of novel loss functions by exploring alternative statistical divergences. Key findings: (1) on unsupervised clustering of DINO-ViT embeddings, we achieve state-of-the-art results by modifying the PMI algorithm to use total variation (TV) distance; (2) supervised contrastive learning with Euclidean distance as the feature space metric is improved by replacing the standard loss function with Jenson-Shannon divergence (JSD); (3) on dimensionality reduction, we achieve superior qualitative results and better performance on downstream tasks than SNE by replacing KL with a bounded $f$-divergence. Our results highlight the importance of considering divergence choices in representation learning optimization.

Beyond I-Con: Exploring New Dimension of Distance Measures in Representation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册