SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training

作者: Qi Zhang, Yifei Wang, Xiaohan Wang, Jiajun Chai, Guojun Yin, Wei Lin, Yisen Wang

分类: cs.AI

发布日期: 2026-03-03

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于稀疏自编码器的迁移性评分（STS），无需训练即可预测LLM跨域迁移能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 迁移学习 稀疏自编码器 可解释性 模型偏移

📋 核心要点

现有方法难以理解LLM后训练过程中的模型偏移如何影响跨域迁移性能，缺乏可解释性。
提出基于稀疏自编码器（SAE）的迁移性评分（STS），通过识别SAE表示中偏移的维度来预测迁移能力。
实验表明，STS能够准确预测监督微调的可迁移性，与实际性能变化的相关系数超过0.7。

📝 摘要（中文）

近年来，预训练大型语言模型在各种任务中取得了显著成功。除了自监督预训练的关键作用外，它们在下游应用中的有效性还严重依赖于后训练过程，该过程使模型适应于特定任务的数据和目标。然而，这个过程不可避免地引入了模型偏移，这会影响不同领域的性能，并且这种偏移如何转移仍然知之甚少。为了打开这个黑盒子，我们提出了一种基于稀疏自编码器的迁移性评分（STS），这是一种新的度量标准，它利用稀疏自编码器（SAE）来预测后训练的可迁移性。以监督微调为例，STS识别SAE表示中发生偏移的维度，并计算它们与下游域的相关性，从而能够在微调 extit{之前}可靠地估计可迁移性。跨多个模型和领域的广泛实验表明，STS准确地预测了监督微调的可迁移性，与实际性能变化实现了高于0.7的皮尔逊相关系数。除此之外，我们还朝着将STS扩展到强化学习迈出了初步的一步。我们相信STS可以作为指导LLM后训练策略的{\color{black}可解释}工具。代码可在https://github.com/PKU-ML/STS获得。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在后训练阶段，模型偏移对跨领域迁移性能的影响难以预测的问题。现有方法缺乏对模型内部状态的理解，无法在训练前有效评估迁移性，导致需要耗费大量资源进行不必要的微调实验。

核心思路：论文的核心思路是利用稀疏自编码器（SAE）来提取LLM的内部表示，并识别在后训练过程中发生显著变化的维度。这些维度被认为是影响迁移性的关键因素。通过分析这些维度与目标领域数据的相关性，可以预测模型在目标领域的表现。

技术框架：整体框架包括以下几个主要步骤：1) 使用SAE对LLM的中间层表示进行编码，得到稀疏表示；2) 比较预训练和后训练阶段的SAE激活值，识别发生偏移的维度；3) 计算这些偏移维度与目标领域数据的相关性，得到迁移性评分（STS）；4) 使用STS预测模型在目标领域的性能，并与实际性能进行对比验证。

关键创新：最重要的技术创新点在于利用SAE的可解释性来理解LLM的内部状态，并将其与迁移性联系起来。与现有方法相比，STS无需进行实际的微调训练即可预测迁移性，大大节省了计算资源。此外，STS提供了一种可解释的视角，帮助理解模型迁移的原因。

关键设计：SAE的结构和训练方式是关键设计之一。论文可能采用了特定的稀疏约束和损失函数，以确保SAE能够提取到LLM中具有代表性的特征。此外，如何定义和计算偏移维度与目标领域数据的相关性也是一个重要的技术细节。具体的参数设置和超参数选择可能需要根据不同的LLM和领域数据进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的STS方法能够准确预测监督微调的可迁移性，与实际性能变化实现了高于0.7的皮尔逊相关系数。这一结果表明，STS能够有效地识别影响迁移性的关键因素，并在无需实际训练的情况下预测模型在目标领域的表现。此外，该研究还初步探索了将STS扩展到强化学习领域的可能性。

🎯 应用场景

该研究成果可应用于指导大型语言模型的后训练策略，例如选择合适的微调数据集、调整微调参数等，从而提高模型在目标领域的性能。此外，该方法还可以用于评估不同预训练模型的迁移潜力，帮助研究人员选择更适合特定任务的模型。该研究对于降低LLM的开发和部署成本，以及促进LLM在各个领域的应用具有重要意义。

📄 摘要（原文）

In recent years, pre-trained large language models have achieved remarkable success across diverse tasks. Besides the pivotal role of self-supervised pre-training, their effectiveness in downstream applications also depends critically on the post-training process, which adapts models to task-specific data and objectives. However, this process inevitably introduces model shifts that can influence performance in different domains, and how such shifts transfer remains poorly understood. To open up the black box, we propose the SAE-based Transferability Score (STS), a new metric that leverages sparse autoencoders (SAEs) to forecast post-training transferability. Taking supervised fine-tuning as an example, STS identifies shifted dimensions in SAE representations and calculates their correlations with downstream domains, enabling reliable estimation of transferability \textit{before} fine-tuning. Extensive experiments across multiple models and domains show that STS accurately predicts the transferability of supervised fine-tuning, achieving Pearson correlation coefficients above 0.7 with actual performance changes. Beyond this, we take an initial step toward extending STS to reinforcement learning. We believe that STS can serve as an {\color{black} interpretable} tool for guiding post-training strategies in LLMs. Code is available at https://github.com/PKU-ML/STS.

SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理