Mechanistic Knobs in LLMs: Retrieving and Steering High-Order Semantic Features via Sparse Autoencoders
作者: Ruikang Zhang, Shuo Wang, Qi Su
分类: cs.CL, cs.AI
发布日期: 2026-01-06
💡 一句话要点
提出基于稀疏自编码器的框架,用于检索和操控大语言模型中的高阶语义特征。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 可解释性 稀疏自编码器 语义特征 行为操控
📋 核心要点
- 现有可解释性方法难以将LLM内部特征与复杂语义属性的可靠控制联系起来,这是个持续存在的挑战。
- 论文提出基于稀疏自编码器的框架,通过对比特征检索和激活分析,提取并操控LLM中与特定语义相关的内部特征。
- 实验表明,该方法能够精确地操控模型行为,并在稳定性和性能上优于现有激活操控方法,同时发现了“功能忠实性”现象。
📝 摘要(中文)
本文提出了一种基于稀疏自编码器的框架,用于检索和操控与高级语言行为相关的、语义可解释的大语言模型(LLM)内部特征。该方法采用基于受控语义对立的对比特征检索流程,结合统计激活分析和基于生成的验证,从稀疏激活空间中提取单义功能特征。以“大五”人格特质为例,实验证明该方法能够精确地双向操控模型行为,同时保持优于现有激活操控方法(如对比激活添加CAA)的稳定性和性能。进一步发现了一种经验效应,称之为“功能忠实性”,即干预特定的内部特征会在与目标语义属性对齐的多个语言维度上引起连贯且可预测的转变。研究结果表明,LLM内化了高阶概念的深度集成表示,并为复杂AI行为的调节提供了一种新颖、稳健的机制路径。
🔬 方法详解
问题定义:现有方法难以将大语言模型内部的神经元激活与人类可理解的高阶语义概念(如人格特质)可靠地联系起来,从而难以精确控制模型的行为。现有的激活操控方法,如对比激活添加(CAA),在稳定性和性能方面存在局限性。
核心思路:论文的核心思路是利用稀疏自编码器从LLM的激活空间中提取单义的功能特征,这些特征与特定的高阶语义概念相关联。通过对比学习的方式,找到与目标语义概念正相关和负相关的激活模式,从而实现对模型行为的精确操控。这种方法旨在克服现有方法在稳定性和可控性方面的不足。
技术框架:该框架包含以下几个主要阶段:1) 数据收集:构建包含语义对立的文本数据集,例如,描述外向和内向人格特征的文本。2) 激活提取:使用LLM处理这些文本,并提取特定层的神经元激活。3) 稀疏自编码器训练:训练一个稀疏自编码器,以从激活空间中提取稀疏的、可解释的特征。4) 对比特征检索:使用对比学习方法,找到与目标语义概念正相关和负相关的特征。5) 生成验证:通过干预LLM的激活,并观察生成文本的变化,来验证提取的特征是否与目标语义概念相关。
关键创新:该方法最重要的创新点在于使用稀疏自编码器来提取单义的功能特征,并结合对比学习和生成验证,实现对LLM行为的精确和稳定操控。与现有方法相比,该方法能够更好地识别和利用LLM内部与高阶语义概念相关的特征,从而实现更可靠的行为控制。此外,论文还发现了一种名为“功能忠实性”的现象,表明LLM内部存在高阶概念的深度集成表示。
关键设计:稀疏自编码器的稀疏性惩罚项是一个关键设计,它鼓励自编码器学习稀疏的、可解释的特征。对比学习中的损失函数旨在最大化正相关特征的激活,同时最小化负相关特征的激活。生成验证阶段使用困惑度(perplexity)等指标来评估生成文本的质量和与目标语义概念的相关性。具体来说,自编码器的损失函数通常包含重构损失和稀疏性惩罚项,例如L1正则化。
📊 实验亮点
实验结果表明,该方法能够精确地双向操控模型行为,例如,可以控制模型生成更外向或更内向的文本。与对比激活添加(CAA)等现有方法相比,该方法在稳定性和性能方面均有显著提升。此外,实验还验证了“功能忠实性”现象,即干预特定的内部特征会在多个语言维度上引起连贯且可预测的转变。
🎯 应用场景
该研究成果可应用于个性化AI助手、内容生成、对话系统等领域。通过精确控制LLM的行为,可以创建更符合用户需求和偏好的AI系统。例如,可以训练一个具有特定人格特征的AI助手,或者生成具有特定情感色彩的文本内容。此外,该方法还有助于提高AI系统的安全性和可控性,避免生成有害或不当的内容。
📄 摘要(原文)
Recent work in Mechanistic Interpretability (MI) has enabled the identification and intervention of internal features in Large Language Models (LLMs). However, a persistent challenge lies in linking such internal features to the reliable control of complex, behavior-level semantic attributes in language generation. In this paper, we propose a Sparse Autoencoder-based framework for retrieving and steering semantically interpretable internal features associated with high-level linguistic behaviors. Our method employs a contrastive feature retrieval pipeline based on controlled semantic oppositions, combing statistical activation analysis and generation-based validation to distill monosemantic functional features from sparse activation spaces. Using the Big Five personality traits as a case study, we demonstrate that our method enables precise, bidirectional steering of model behavior while maintaining superior stability and performance compared to existing activation steering methods like Contrastive Activation Addition (CAA). We further identify an empirical effect, which we term Functional Faithfulness, whereby intervening on a specific internal feature induces coherent and predictable shifts across multiple linguistic dimensions aligned with the target semantic attribute. Our findings suggest that LLMs internalize deeply integrated representations of high-order concepts, and provide a novel, robust mechanistic path for the regulation of complex AI behaviors.