Neural Scaling Laws for Deep Regression
作者: Tilen Cadez, Kyoung-Min Kim
分类: cs.LG, cond-mat.other
发布日期: 2025-09-12 (更新: 2025-11-24)
备注: Supplementary Information will be provided with the published manuscript
💡 一句话要点
研究深度回归模型神经标度律,揭示数据量与模型容量对性能的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经标度律 深度回归 参数估计 模型容量 数据集大小
📋 核心要点
- 现有深度学习标度律的研究主要集中在分类任务,深度回归模型的标度律研究相对不足。
- 本文通过实证研究,探索了深度回归模型中损失函数与训练数据量、模型容量之间的幂律关系。
- 实验结果表明,深度回归模型也存在显著的标度律,且性能随数据量增加有较大提升空间。
📝 摘要(中文)
神经标度律是深度学习模型的重要工具,它描述了泛化误差与模型特性之间的幂律关系,有助于在资源有限的情况下开发可靠的模型。尽管大型语言模型的成功突显了这些定律的重要性,但它们在深度回归模型中的应用仍未得到充分探索。本文针对扭曲范德瓦尔斯磁体的参数估计模型,对深度回归中的神经标度律进行了实证研究。结果表明,损失与训练数据集大小和模型容量之间存在广泛的幂律关系,涵盖了各种架构,包括全连接网络、残差网络和视觉Transformer。此外,这些关系的标度指数范围为1到2,具体数值取决于回归参数和模型细节。一致的标度行为和较大的标度指数表明,随着数据量的增加,深度回归模型的性能可以得到显著提高。
🔬 方法详解
问题定义:论文旨在研究深度回归模型中的神经标度律,即模型性能(通常用损失函数衡量)如何随着训练数据集大小和模型容量的变化而变化。现有方法对深度回归模型的标度律研究不足,缺乏对数据量和模型容量如何影响深度回归模型性能的理解。
核心思路:论文的核心思路是通过大量的实验,观察深度回归模型的损失函数与训练数据集大小和模型容量之间的关系。通过拟合实验数据,确定是否存在幂律关系,并计算相应的标度指数。这种方法旨在揭示深度回归模型性能提升的潜力,并为模型设计和资源分配提供指导。
技术框架:论文采用参数估计模型对扭曲范德瓦尔斯磁体进行建模,并使用深度神经网络进行回归。整体流程包括:1) 生成模拟数据集;2) 选择不同的网络架构(全连接网络、残差网络、视觉Transformer);3) 在不同大小的数据集上训练模型;4) 评估模型在验证集上的损失;5) 分析损失与数据集大小和模型容量之间的关系,拟合幂律曲线,计算标度指数。
关键创新:该研究的关键创新在于将神经标度律的研究扩展到深度回归模型,并实证地证明了深度回归模型也存在显著的标度律。此外,研究还发现,深度回归模型的标度指数较大,这意味着增加数据量可以显著提高模型性能。
关键设计:论文使用了多种网络架构,包括全连接网络、残差网络和视觉Transformer,以验证标度律的普适性。损失函数采用均方误差(MSE)。数据集大小和模型容量(参数数量)作为自变量,损失作为因变量,通过最小二乘法拟合幂律曲线。标度指数是幂律曲线的关键参数,反映了数据量或模型容量对性能的影响程度。
📊 实验亮点
实验结果表明,深度回归模型的损失与训练数据集大小和模型容量之间存在幂律关系,标度指数范围为1到2。这意味着增加数据量可以显著提高模型性能。例如,在特定参数估计任务中,随着训练数据量的增加,模型的均方误差(MSE)以接近平方反比的速度下降。
🎯 应用场景
该研究成果可应用于各种需要精确参数估计的领域,例如材料科学、金融建模和气候预测。通过了解深度回归模型的标度律,研究人员可以更有效地利用有限的计算资源和数据资源,设计出性能更优越的回归模型。此外,该研究也为未来深度回归模型的设计和优化提供了理论指导。
📄 摘要(原文)
Neural scaling laws--power-law relationships between generalization errors and characteristics of deep learning models--are vital tools for developing reliable models while managing limited resources. Although the success of large language models highlights the importance of these laws, their application to deep regression models remains largely unexplored. Here, we empirically investigate neural scaling laws in deep regression using a parameter estimation model for twisted van der Waals magnets. We observe power-law relationships between the loss and both training dataset size and model capacity across a wide range of values, employing various architectures--including fully connected networks, residual networks, and vision transformers. Furthermore, the scaling exponents governing these relationships range from 1 to 2, with specific values depending on the regressed parameters and model details. The consistent scaling behaviors and their large scaling exponents suggest that the performance of deep regression models can improve substantially with increasing data size.