Estimating Dimensionality of Neural Representations from Finite Samples
作者: Chanwoo Chun, Abdulkadir Canatar, SueYeon Chung, Daniel Lee
分类: stat.ML, cs.LG, q-bio.NC
发布日期: 2025-09-30
💡 一句话要点
提出一种偏差校正的维度估计器,用于解决神经表征维度估计中样本量依赖问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经表征 维度估计 偏差校正 有限样本 参与率
📋 核心要点
- 现有神经表征维度估计方法对样本量敏感,尤其是在样本量较小时,估计结果偏差较大。
- 提出一种偏差校正的维度估计器,通过校正参与率的偏差,提高在有限样本下的估计准确性。
- 实验表明,该估计器在合成数据和真实神经数据(包括脑记录和语言模型激活)上均表现出对样本大小的不变性。
📝 摘要(中文)
神经表征流形的全局维度能够深入了解人工和生物神经网络的计算过程。然而,现有的全局维度度量方法对样本数量敏感,即样本矩阵的行数和列数。本文表明,特征值的参与率(participation ratio),一种常用的全局维度度量方法,在小样本量下存在高度偏差。因此,我们提出了一种偏差校正的估计器,它在有限样本和噪声情况下更加准确。在合成数据实验中,我们证明了该估计器能够恢复真实的已知维度。我们还将该估计器应用于神经脑记录,包括钙成像、电生理记录和fMRI数据,以及大型语言模型中的神经激活,结果表明我们的估计器对样本大小具有不变性。此外,我们的估计器还可以通过适当加权有限样本来测量弯曲神经流形的局部维度。
🔬 方法详解
问题定义:论文旨在解决神经表征维度估计中,现有方法对样本量敏感的问题。特别是,常用的参与率(participation ratio)在样本量较小时会产生较大的偏差,导致维度估计不准确。这种不准确性会影响对神经网络计算过程的理解。
核心思路:论文的核心思路是通过对参与率进行偏差校正,使其在有限样本情况下也能准确估计神经表征的维度。这种校正基于对样本量和噪声的考虑,旨在消除由有限样本引起的偏差。
技术框架:该方法主要包含以下几个阶段:1) 计算样本数据的协方差矩阵或相关矩阵。2) 对协方差矩阵进行特征值分解,得到特征值谱。3) 使用特征值谱计算参与率。4) 应用提出的偏差校正方法对参与率进行校正,得到最终的维度估计值。该框架可以应用于各种神经数据,包括钙成像、电生理记录、fMRI数据以及神经网络的激活。
关键创新:该论文的关键创新在于提出了一个偏差校正的维度估计器。与现有方法相比,该估计器能够显著降低有限样本量带来的偏差,从而更准确地估计神经表征的维度。这种偏差校正方法是基于对参与率的统计特性分析,并针对有限样本进行了优化。
关键设计:偏差校正的具体形式取决于对数据噪声的假设。论文可能针对不同的噪声模型(例如,高斯噪声)推导出不同的校正公式。关键在于如何准确估计偏差的大小,并将其从原始的参与率中减去。此外,论文还可能探讨了如何将该方法应用于局部维度估计,通过对样本进行加权来实现。
📊 实验亮点
实验结果表明,提出的偏差校正估计器在合成数据上能够准确恢复真实维度。在真实神经数据(钙成像、电生理记录、fMRI)和大型语言模型激活数据上的应用表明,该估计器对样本大小具有不变性,优于传统的参与率方法。具体性能提升数据未知,但论文强调了其对样本大小的不变性。
🎯 应用场景
该研究成果可应用于神经科学、人工智能等领域。在神经科学中,可以更准确地分析大脑活动的维度,从而深入理解大脑的计算机制。在人工智能领域,可以用于分析神经网络的表征能力,优化网络结构和训练方法。此外,该方法还可以用于评估不同神经网络模型的复杂度和泛化能力。
📄 摘要(原文)
The global dimensionality of a neural representation manifold provides rich insight into the computational process underlying both artificial and biological neural networks. However, all existing measures of global dimensionality are sensitive to the number of samples, i.e., the number of rows and columns of the sample matrix. We show that, in particular, the participation ratio of eigenvalues, a popular measure of global dimensionality, is highly biased with small sample sizes, and propose a bias-corrected estimator that is more accurate with finite samples and with noise. On synthetic data examples, we demonstrate that our estimator can recover the true known dimensionality. We apply our estimator to neural brain recordings, including calcium imaging, electrophysiological recordings, and fMRI data, and to the neural activations in a large language model and show our estimator is invariant to the sample size. Finally, our estimators can additionally be used to measure the local dimensionalities of curved neural manifolds by weighting the finite samples appropriately.