Learning Shrinks the Hard Tail: Training-Dependent Inference Scaling in a Solvable Linear Model

作者: Noam Levi

分类: cs.LG, cond-mat.dis-nn, cs.AI, stat.ML

发布日期: 2026-01-07

备注: 10 pages

💡 一句话要点

提出LID模型分析末层微调，揭示训练如何影响泛化与推理缩放。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 神经缩放律 实例难度 重尾分布 泛化误差 推理性能 末层微调 计算分配

📋 核心要点

现有神经缩放律研究缺乏对实例难度异构性的考虑，难以解释训练对推理性能的具体影响。
论文提出潜在实例难度（LID）模型，将实例难度建模为服从重尾分布的潜在变量，从而分析训练与推理之间的关系。
实验表明，LID模型能准确预测训练样本量对pass@k曲线的影响，并指导计算资源的分配策略。

📝 摘要（中文）

本文分析了一个可解的末层微调线性模型中的神经缩放律，其中目标具有内在的、实例异构的难度。在我们的潜在实例难度（LID）模型中，每个输入的target方差由一个从重尾分布中抽取的潜在“精度”控制。虽然泛化损失恢复了标准的缩放律，但我们的主要贡献是将此与推理联系起来。pass@$k$失败率表现出幂律衰减，$k^{-β_ ext{eff}}$，但观察到的指数$β_ ext{eff}$是训练相关的。它随着样本量$N$的增加而增长，然后在由难度分布的尾部设置的内在极限$β$处饱和。这种耦合表明，学习会缩小误差分布的“硬尾”：模型泛化误差的改进会使pass@$k$曲线变陡，直到不可约的target方差占主导地位。LID模型为此行为产生了可测试的闭式预测，包括一种计算分配规则，该规则在饱和之前偏向于训练，之后偏向于推理尝试。我们在模拟和两个真实数据代理中验证了这些预测：CIFAR-10H（人工标签方差）和一个数学教师-学生蒸馏任务。

🔬 方法详解

问题定义：现有神经缩放律研究主要关注泛化误差与模型大小、数据量等因素的关系，忽略了不同实例之间难度差异的影响。这种忽略导致无法准确预测训练过程对推理性能（如pass@k）的影响，也难以指导计算资源的有效分配。

核心思路：论文的核心思路是将实例难度建模为一个潜在变量，并假设该变量服从重尾分布。这种建模方式能够捕捉到现实世界中存在的“长尾效应”，即少数实例的难度远高于其他实例。通过分析该模型，论文旨在揭示训练如何影响误差分布的“硬尾”，从而影响推理性能。

技术框架：LID模型是一个可解的线性模型，用于模拟末层微调过程。该模型包含以下几个关键组成部分：1) 输入数据：每个输入实例都有一个对应的潜在难度值（精度），该值决定了target的方差。2) 模型训练：模型通过最小化均方误差来学习输入与target之间的关系。3) 推理：使用训练好的模型进行推理，并评估pass@k指标。整体流程是先定义实例难度分布，然后进行模型训练，最后分析训练对推理性能的影响。

关键创新：论文最重要的创新在于将实例难度建模为服从重尾分布的潜在变量，并以此为基础分析了训练与推理之间的关系。这种建模方式能够更真实地反映现实世界中的数据分布，并为理解神经缩放律提供了新的视角。此外，论文还推导出了可测试的闭式预测，包括计算分配规则，这为实际应用提供了指导。

关键设计：LID模型的关键设计包括：1) 潜在难度分布的选择：论文假设潜在难度服从重尾分布，如帕累托分布。2) 损失函数：使用均方误差作为损失函数，衡量模型预测与真实target之间的差异。3) pass@k指标：使用pass@k作为评估推理性能的指标，衡量模型在k次尝试中成功解决问题的概率。

📊 实验亮点

论文通过模拟实验和真实数据代理（CIFAR-10H和数学教师-学生蒸馏任务）验证了LID模型的预测。实验结果表明，LID模型能够准确预测训练样本量对pass@k曲线的影响，并指导计算资源的分配策略。例如，实验验证了计算分配规则，即在饱和之前偏向于训练，之后偏向于推理尝试。

🎯 应用场景

该研究成果可应用于指导机器学习模型的训练和推理资源分配。例如，在自动驾驶、医疗诊断等领域，可以根据实例难度动态调整计算资源，优先处理高难度实例，从而提高系统的整体性能和效率。此外，该模型还可以用于分析和改进现有的机器学习算法，使其更好地适应具有长尾效应的数据分布。

📄 摘要（原文）

We analyze neural scaling laws in a solvable model of last-layer fine-tuning where targets have intrinsic, instance-heterogeneous difficulty. In our Latent Instance Difficulty (LID) model, each input's target variance is governed by a latent precision'' drawn from a heavy-tailed distribution. While generalization loss recovers standard scaling laws, our main contribution connects this to inference. The pass@$k$ failure rate exhibits a power-law decay, $k^{-β_\text{eff}}$, but the observed exponent $β_\text{eff}$ is training-dependent. It grows with sample size $N$ before saturating at an intrinsic limit $β$ set by the difficulty distribution's tail. This coupling reveals that learning shrinks thehard tail'' of the error distribution: improvements in the model's generalization error steepen the pass@$k$ curve until irreducible target variance dominates. The LID model yields testable, closed-form predictions for this behavior, including a compute-allocation rule that favors training before saturation and inference attempts after. We validate these predictions in simulations and in two real-data proxies: CIFAR-10H (human-label variance) and a maths teacher-student distillation task.

Learning Shrinks the Hard Tail: Training-Dependent Inference Scaling in a Solvable Linear Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册