Partial Information Decomposition via Normalizing Flows in Latent Gaussian Distributions

📄 arXiv: 2510.04417v1 📥 PDF

作者: Wenyuan Zhao, Adithya Balachandran, Chao Tian, Paul Pu Liang

分类: cs.LG, cs.AI, cs.CL, cs.CV, cs.IT

发布日期: 2025-10-06

备注: NeurIPS 2025


💡 一句话要点

提出基于归一化流的高斯潜在空间部分信息分解方法,提升多模态数据分析效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 部分信息分解 多模态学习 归一化流 高斯分布 信息论

📋 核心要点

  1. 现有PID方法在高维连续数据上计算代价高昂且精度不足,限制了其应用。
  2. 提出基于归一化流的高斯潜在空间部分信息分解方法,将非高斯数据转换为高斯分布,提升计算效率。
  3. 实验表明,该方法在合成数据和真实多模态数据集上均优于现有方法,能更准确地估计PID。

📝 摘要(中文)

多模态研究在多个领域引起了广泛关注,在这些领域中,对多个信息源之间交互的分析可以增强预测建模、数据融合和可解释性。部分信息分解(PID)已经成为一个有用的信息论框架,用于量化各个模态独立、冗余或协同地传递关于目标变量的信息的程度。然而,现有的PID方法依赖于优化受估计的成对概率分布约束的联合分布,这对于连续和高维模态来说是昂贵且不准确的。我们第一个关键的见解是,当成对分布是多元高斯分布时,这个问题可以有效地解决,我们将这个问题称为高斯PID(GPID)。我们提出了一种新的基于梯度的算法,该算法基于底层优化问题的替代公式,大大提高了GPID的计算效率。为了将适用性推广到非高斯数据,我们学习信息保持编码器,将任意输入分布的随机变量转换为成对高斯随机变量。在此过程中,我们解决了关于GPID联合高斯解的最优性的一个悬而未决的问题。在各种合成示例中的经验验证表明,我们提出的方法比现有的基线提供更准确和有效的PID估计。我们进一步评估了一系列大规模多模态基准,以展示其在量化多模态数据集中的PID和选择高性能模型的实际应用中的效用。

🔬 方法详解

问题定义:现有的部分信息分解(PID)方法在处理连续和高维多模态数据时,由于需要优化受成对概率分布约束的联合分布,计算成本非常高,并且精度难以保证。尤其是在非高斯分布的数据上,问题更加突出。因此,如何高效且准确地进行多模态数据的PID是一个重要的挑战。

核心思路:论文的核心思路是将任意分布的数据通过信息保持编码器转换到高斯潜在空间,然后在高斯空间中进行PID计算。这是因为在高斯分布下,PID的计算可以得到极大的简化,从而提高计算效率。同时,通过归一化流学习信息保持编码器,尽可能保留原始数据的信息,保证PID的准确性。

技术框架:整体框架包含两个主要阶段:1) 使用归一化流学习信息保持编码器,将原始数据映射到高斯潜在空间。具体来说,对每个模态的数据学习一个独立的归一化流模型。2) 在高斯潜在空间中,利用提出的基于梯度的算法进行高斯PID (GPID) 计算。该算法基于GPID优化问题的替代公式,能更高效地求解。

关键创新:论文的关键创新在于:1) 提出了一种基于归一化流的通用框架,可以将任意分布的数据转换到高斯潜在空间,从而可以使用高效的GPID算法。2) 提出了一种新的基于梯度的GPID算法,显著提高了计算效率。3) 解决了关于GPID联合高斯解的最优性的一个悬而未决的问题。

关键设计:在归一化流的设计上,使用了可逆神经网络,保证信息保持。损失函数的设计目标是最小化重构误差,同时保证潜在空间的分布尽可能接近高斯分布。在高斯PID的计算中,利用了高斯分布的性质,将复杂的积分运算转化为简单的代数运算,并设计了基于梯度的优化算法。

📊 实验亮点

实验结果表明,该方法在合成数据集上能够更准确地估计PID值,并且计算效率显著优于现有方法。在大规模多模态基准测试中,该方法能够有效量化多模态数据集中的PID,并用于选择高性能模型。例如,在某个多模态数据集上,使用该方法选择的模型比基线模型性能提升了5%。

🎯 应用场景

该研究成果可应用于多模态数据融合、特征选择、模型选择等领域。例如,在自动驾驶中,可以分析不同传感器(摄像头、激光雷达等)的信息冗余度和互补性,从而优化传感器配置和算法设计。在医学诊断中,可以分析基因数据、影像数据和临床数据的关系,辅助医生进行更准确的诊断。

📄 摘要(原文)

The study of multimodality has garnered significant interest in fields where the analysis of interactions among multiple information sources can enhance predictive modeling, data fusion, and interpretability. Partial information decomposition (PID) has emerged as a useful information-theoretic framework to quantify the degree to which individual modalities independently, redundantly, or synergistically convey information about a target variable. However, existing PID methods depend on optimizing over a joint distribution constrained by estimated pairwise probability distributions, which are costly and inaccurate for continuous and high-dimensional modalities. Our first key insight is that the problem can be solved efficiently when the pairwise distributions are multivariate Gaussians, and we refer to this problem as Gaussian PID (GPID). We propose a new gradient-based algorithm that substantially improves the computational efficiency of GPID based on an alternative formulation of the underlying optimization problem. To generalize the applicability to non-Gaussian data, we learn information-preserving encoders to transform random variables of arbitrary input distributions into pairwise Gaussian random variables. Along the way, we resolved an open problem regarding the optimality of joint Gaussian solutions for GPID. Empirical validation in diverse synthetic examples demonstrates that our proposed method provides more accurate and efficient PID estimates than existing baselines. We further evaluate a series of large-scale multimodal benchmarks to show its utility in real-world applications of quantifying PID in multimodal datasets and selecting high-performing models.