Crosscoding Through Time: Tracking Emergence & Consolidation Of Linguistic Representations Throughout LLM Pretraining
作者: Deniz Bayazit, Aaron Mueller, Antoine Bosselut
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-05
💡 一句话要点
提出基于稀疏互编码器的LLM预训练过程语言表征追踪方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 预训练 表征学习 互编码器 特征对齐 因果推断 可解释性
📋 核心要点
- 现有LLM评估方法难以揭示模型如何获得概念和能力,缺乏对预训练过程中语言能力涌现的细粒度理解。
- 利用稀疏互编码器对齐不同模型检查点之间的特征,从而跟踪预训练期间语言特征的演变过程。
- 通过相对间接效应(RelIE)指标,追踪单个特征对任务性能产生因果重要性的训练阶段,实现特征涌现、维持和停止的检测。
📝 摘要(中文)
大型语言模型(LLM)在预训练期间学习到非凡的抽象概念,例如识别不规则复数名词主语。然而,对于特定语言能力何时以及如何涌现,我们知之甚少,因为传统的评估方法(如基准测试)无法揭示模型如何获得概念和能力。为了弥合这一差距,并在概念层面更好地理解模型训练,我们使用稀疏互编码器来发现和对齐模型检查点之间的特征。通过这种方法,我们跟踪了预训练期间语言特征的演变。我们在具有显著性能和表征变化的开源检查点三元组之间训练互编码器,并引入了一种新的指标,即相对间接效应(RelIE),以追踪单个特征对任务性能产生因果重要性的训练阶段。我们表明,互编码器可以检测预训练期间特征的涌现、维持和停止。我们的方法与架构无关且可扩展,为在整个预训练过程中对表征学习进行更具可解释性和细粒度的分析提供了一条有希望的途径。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)预训练过程中,特定语言能力何时以及如何涌现的问题。现有评估方法(如基准测试)无法提供足够细粒度的信息,难以理解模型内部表征的学习过程。因此,需要一种方法来跟踪和分析LLM在预训练期间学习到的语言特征的演变。
核心思路:论文的核心思路是使用稀疏互编码器(sparse crosscoders)来发现和对齐不同模型检查点之间的特征。通过训练互编码器,可以将一个检查点中的特征映射到另一个检查点中的对应特征,从而跟踪特征在预训练过程中的变化。此外,论文还引入了相对间接效应(RelIE)指标,用于评估单个特征对任务性能的因果重要性。
技术框架:整体框架包括以下几个主要步骤:1) 选择具有显著性能和表征变化的LLM检查点三元组;2) 在这些检查点之间训练稀疏互编码器,学习特征之间的映射关系;3) 使用RelIE指标评估每个特征对任务性能的因果重要性;4) 分析特征的演变过程,检测特征的涌现、维持和停止。互编码器的训练目标是最小化重构误差,同时鼓励特征的稀疏性。
关键创新:论文的关键创新在于:1) 提出了一种基于稀疏互编码器的特征对齐方法,可以跟踪LLM预训练过程中语言特征的演变;2) 引入了相对间接效应(RelIE)指标,用于评估特征的因果重要性;3) 该方法与模型架构无关,具有良好的可扩展性。
关键设计:互编码器的训练采用了L1正则化,以鼓励特征的稀疏性。RelIE指标的计算涉及对模型输出进行干预,并评估干预对任务性能的影响。具体而言,RelIE定义为特征激活值变化对模型输出变化的因果效应,通过计算总效应和直接效应的差值得到间接效应,再进行归一化处理。
📊 实验亮点
论文通过实验验证了互编码器可以有效地检测预训练期间特征的涌现、维持和停止。RelIE指标能够准确地评估特征的因果重要性。该方法在多个开源LLM检查点上进行了验证,证明了其有效性和可扩展性。实验结果表明,某些语言特征在预训练的早期阶段就已涌现,并在后续阶段得到维持,而另一些特征则在后期阶段逐渐消失。
🎯 应用场景
该研究成果可应用于理解和改进大型语言模型的预训练过程,例如,可以用于指导预训练数据的选择、优化训练策略、以及诊断模型中的问题。此外,该方法还可以用于分析不同模型架构之间的差异,以及评估不同预训练目标的影响。该研究有助于开发更可控、更高效的LLM训练方法。
📄 摘要(原文)
Large language models (LLMs) learn non-trivial abstractions during pretraining, like detecting irregular plural noun subjects. However, it is not well understood when and how specific linguistic abilities emerge as traditional evaluation methods such as benchmarking fail to reveal how models acquire concepts and capabilities. To bridge this gap and better understand model training at the concept level, we use sparse crosscoders to discover and align features across model checkpoints. Using this approach, we track the evolution of linguistic features during pretraining. We train crosscoders between open-sourced checkpoint triplets with significant performance and representation shifts, and introduce a novel metric, Relative Indirect Effects (RelIE), to trace training stages at which individual features become causally important for task performance. We show that crosscoders can detect feature emergence, maintenance, and discontinuation during pretraining. Our approach is architecture-agnostic and scalable, offering a promising path toward more interpretable and fine-grained analysis of representation learning throughout pretraining.