Learning Shrinks the Hard Tail: Training-Dependent Inference Scaling in a Solvable Linear Model

📄 arXiv: 2601.03764v1 📥 PDF

作者: Noam Levi

分类: cs.LG, cond-mat.dis-nn, cs.AI, stat.ML

发布日期: 2026-01-07

备注: 10 pages


💡 一句话要点

提出LID模型分析末层微调,揭示训练如何影响泛化与推理缩放。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 神经缩放律 实例难度 重尾分布 泛化误差 推理性能 末层微调 计算分配

📋 核心要点

  1. 现有神经缩放律研究缺乏对实例难度异构性的考虑,难以解释训练对推理性能的具体影响。
  2. 论文提出潜在实例难度(LID)模型,将实例难度建模为服从重尾分布的潜在变量,从而分析训练与推理之间的关系。
  3. 实验表明,LID模型能准确预测训练样本量对pass@k曲线的影响,并指导计算资源的分配策略。

📝 摘要(中文)

本文分析了一个可解的末层微调线性模型中的神经缩放律,其中目标具有内在的、实例异构的难度。在我们的潜在实例难度(LID)模型中,每个输入的target方差由一个从重尾分布中抽取的潜在“精度”控制。虽然泛化损失恢复了标准的缩放律,但我们的主要贡献是将此与推理联系起来。pass@$k$失败率表现出幂律衰减,$k^{-β_ ext{eff}}$,但观察到的指数$β_ ext{eff}$是训练相关的。它随着样本量$N$的增加而增长,然后在由难度分布的尾部设置的内在极限$β$处饱和。这种耦合表明,学习会缩小误差分布的“硬尾”:模型泛化误差的改进会使pass@$k$曲线变陡,直到不可约的target方差占主导地位。LID模型为此行为产生了可测试的闭式预测,包括一种计算分配规则,该规则在饱和之前偏向于训练,之后偏向于推理尝试。我们在模拟和两个真实数据代理中验证了这些预测:CIFAR-10H(人工标签方差)和一个数学教师-学生蒸馏任务。

🔬 方法详解

问题定义:现有神经缩放律研究主要关注泛化误差与模型大小、数据量等因素的关系,忽略了不同实例之间难度差异的影响。这种忽略导致无法准确预测训练过程对推理性能(如pass@k)的影响,也难以指导计算资源的有效分配。

核心思路:论文的核心思路是将实例难度建模为一个潜在变量,并假设该变量服从重尾分布。这种建模方式能够捕捉到现实世界中存在的“长尾效应”,即少数实例的难度远高于其他实例。通过分析该模型,论文旨在揭示训练如何影响误差分布的“硬尾”,从而影响推理性能。

技术框架:LID模型是一个可解的线性模型,用于模拟末层微调过程。该模型包含以下几个关键组成部分:1) 输入数据:每个输入实例都有一个对应的潜在难度值(精度),该值决定了target的方差。2) 模型训练:模型通过最小化均方误差来学习输入与target之间的关系。3) 推理:使用训练好的模型进行推理,并评估pass@k指标。整体流程是先定义实例难度分布,然后进行模型训练,最后分析训练对推理性能的影响。

关键创新:论文最重要的创新在于将实例难度建模为服从重尾分布的潜在变量,并以此为基础分析了训练与推理之间的关系。这种建模方式能够更真实地反映现实世界中的数据分布,并为理解神经缩放律提供了新的视角。此外,论文还推导出了可测试的闭式预测,包括计算分配规则,这为实际应用提供了指导。

关键设计:LID模型的关键设计包括:1) 潜在难度分布的选择:论文假设潜在难度服从重尾分布,如帕累托分布。2) 损失函数:使用均方误差作为损失函数,衡量模型预测与真实target之间的差异。3) pass@k指标:使用pass@k作为评估推理性能的指标,衡量模型在k次尝试中成功解决问题的概率。

📊 实验亮点

论文通过模拟实验和真实数据代理(CIFAR-10H和数学教师-学生蒸馏任务)验证了LID模型的预测。实验结果表明,LID模型能够准确预测训练样本量对pass@k曲线的影响,并指导计算资源的分配策略。例如,实验验证了计算分配规则,即在饱和之前偏向于训练,之后偏向于推理尝试。

🎯 应用场景

该研究成果可应用于指导机器学习模型的训练和推理资源分配。例如,在自动驾驶、医疗诊断等领域,可以根据实例难度动态调整计算资源,优先处理高难度实例,从而提高系统的整体性能和效率。此外,该模型还可以用于分析和改进现有的机器学习算法,使其更好地适应具有长尾效应的数据分布。

📄 摘要(原文)

We analyze neural scaling laws in a solvable model of last-layer fine-tuning where targets have intrinsic, instance-heterogeneous difficulty. In our Latent Instance Difficulty (LID) model, each input's target variance is governed by a latent precision'' drawn from a heavy-tailed distribution. While generalization loss recovers standard scaling laws, our main contribution connects this to inference. The pass@$k$ failure rate exhibits a power-law decay, $k^{-β_\text{eff}}$, but the observed exponent $β_\text{eff}$ is training-dependent. It grows with sample size $N$ before saturating at an intrinsic limit $β$ set by the difficulty distribution's tail. This coupling reveals that learning shrinks thehard tail'' of the error distribution: improvements in the model's generalization error steepen the pass@$k$ curve until irreducible target variance dominates. The LID model yields testable, closed-form predictions for this behavior, including a compute-allocation rule that favors training before saturation and inference attempts after. We validate these predictions in simulations and in two real-data proxies: CIFAR-10H (human-label variance) and a maths teacher-student distillation task.