Hyperdimensional Probe: Decoding LLM Representations via Vector Symbolic Architectures
作者: Marco Bronzini, Carlo Nicolini, Bruno Lepri, Jacopo Staiano, Andrea Passerini
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-29 (更新: 2025-12-02)
💡 一句话要点
提出超维探针,通过向量符号架构解码大型语言模型表征
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可解释性 向量符号架构 神经探测 表征学习
📋 核心要点
- 现有LLM可解释性方法难以同时兼顾输入特征提取和输出分布分析,限制了对模型内部表征的全面理解。
- 提出超维探针,结合向量符号架构和神经探测,统一了监督探针、稀疏自编码器和logit分析等方法。
- 实验表明,该方法能有效提取LLM中的概念,揭示类比推理和QA生成中的概念驱动模式,提升语义理解。
📝 摘要(中文)
大型语言模型(LLM)的能力强大,但其内部表征仍然不透明,理解有限。现有的可解释性方法要么侧重于输入导向的特征提取,如监督探针和稀疏自编码器(SAE),要么侧重于输出分布检查,如logit导向的方法。然而,要全面理解LLM向量空间,需要整合这两种视角,而现有方法由于对潜在特征定义的约束而难以做到。我们引入了超维探针,这是一种混合监督探针,它将符号表征与神经探测相结合。利用向量符号架构(VSA)和超向量代数,它统一了先前的方法:监督探针的自顶向下可解释性、SAE的稀疏驱动代理空间以及面向输出的logit研究。这使得更深入的以输入为中心的特征提取成为可能,同时支持面向输出的研究。我们的实验表明,我们的方法始终如一地提取跨LLM、嵌入大小和设置的有意义的概念,揭示了面向类比的推理和以QA为中心的文本生成中概念驱动的模式。通过支持联合输入输出分析,这项工作提高了对神经表征的语义理解,同时统一了先前方法的互补视角。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)可解释性方法存在局限性。监督探针和稀疏自编码器(SAE)侧重于从输入中提取特征,而基于logit的方法则关注输出分布。然而,要真正理解LLM的内部运作机制,需要同时考虑输入和输出,并建立它们之间的联系。现有方法难以做到这一点,因为它们在定义潜在特征时存在约束,无法提供全面的视角。
核心思路:本文的核心思路是利用向量符号架构(VSA)将符号表征与神经探测相结合,从而实现对LLM内部表征的更深入理解。VSA允许将概念表示为高维向量(超向量),并使用代数运算来组合和操作这些概念。通过将LLM的激活向量与VSA中的符号表示联系起来,可以更好地理解LLM如何处理和表示信息。
技术框架:超维探针的技术框架包含以下几个主要步骤:1) 使用VSA构建概念的符号表示;2) 使用监督学习训练一个探针,将LLM的激活向量映射到VSA空间中的概念表示;3) 使用超向量代数分析探针学习到的概念表示,例如,通过计算概念之间的相似度或组合概念来推断新的概念;4) 将分析结果与LLM的输入和输出进行比较,以验证探针的有效性并揭示LLM的内部运作机制。
关键创新:超维探针的关键创新在于它将符号表征与神经探测相结合,从而弥合了输入导向和输出导向的可解释性方法之间的差距。与传统的监督探针相比,超维探针使用VSA作为代理空间,允许更灵活和可解释的特征定义。与SAE相比,超维探针直接学习概念表示,而不是依赖于稀疏性约束。
关键设计:超维探针的关键设计包括:1) 使用高维随机向量来表示原子概念;2) 使用循环卷积来组合概念,形成更复杂的概念表示;3) 使用余弦相似度来衡量概念之间的相似度;4) 使用线性回归作为探针的模型,将LLM的激活向量映射到VSA空间中的概念表示;5) 使用交叉熵损失函数来训练探针,目标是最小化预测的概念表示与真实的符号表示之间的差异。
📊 实验亮点
实验结果表明,超维探针能够有效地提取LLM中的概念,并在不同的LLM架构、嵌入大小和设置下保持一致性。例如,在类比推理任务中,超维探针能够揭示LLM如何使用概念来推断新的关系。在QA任务中,超维探针能够识别LLM在回答问题时所关注的关键概念。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可解释性和可控性,例如,通过理解模型如何表示和处理知识,可以更好地控制模型的生成行为,避免生成不准确或有害的内容。此外,该方法还可以用于诊断模型的缺陷,例如,识别模型在哪些概念上存在理解偏差,从而有针对性地改进模型。
📄 摘要(原文)
Despite their capabilities, Large Language Models (LLMs) remain opaque with limited understanding of their internal representations. Current interpretability methods either focus on input-oriented feature extraction, such as supervised probes and Sparse Autoencoders (SAEs), or on output distribution inspection, such as logit-oriented approaches. A full understanding of LLM vector spaces, however, requires integrating both perspectives, something existing approaches struggle with due to constraints on latent feature definitions. We introduce the Hyperdimensional Probe, a hybrid supervised probe that combines symbolic representations with neural probing. Leveraging Vector Symbolic Architectures (VSAs) and hypervector algebra, it unifies prior methods: the top-down interpretability of supervised probes, SAE's sparsity-driven proxy space, and output-oriented logit investigation. This allows deeper input-focused feature extraction while supporting output-oriented investigation. Our experiments show that our method consistently extracts meaningful concepts across LLMs, embedding sizes, and setups, uncovering concept-driven patterns in analogy-oriented inference and QA-focused text generation. By supporting joint input-output analysis, this work advances semantic understanding of neural representations while unifying the complementary perspectives of prior methods.