From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks

📄 arXiv: 2604.00778v1 📥 PDF

作者: Ayan Datta, Mounika Marreddy, Alexander Mehler, Zhixue Zhao, Radhika Mamidi

分类: cs.CL

发布日期: 2026-04-01


💡 一句话要点

揭示LLM在字符计数任务中“早期编码、后期抑制”现象,发现负电路干扰。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可解释性 符号推理 字符计数 负电路 机制分析 竞争性解码

📋 核心要点

  1. 现有LLM在简单字符计数任务上表现不佳,原因不明,无法解释其在复杂任务上的优异表现。
  2. 通过探针实验和机制分析,发现LLM内部能正确计算,但后期层存在负电路抑制正确信息。
  3. 揭示LLM推理并非单纯放大正确信号,而是竞争性解码,正确与错误假设共存并动态调整。

📝 摘要(中文)

大型语言模型(LLM)在复杂的基准测试中表现出色,但在单词字符计数等基本符号任务中却表现出失败。尽管这种局限性已被注意到,但其内部原因仍不清楚。本文使用字符计数(例如,“apple中有多少个p?”)作为一个最小的、受控的探针,将token级别的推理与更高层次的混淆因素隔离开来。通过这种设置,我们揭示了包括LLaMA、Qwen和Gemma在内的现代架构中普遍存在的一种现象:模型通常在内部计算出正确的答案,但无法在输出层表达出来。通过结合探测分类器、激活修补、logit lens分析和注意力头追踪的机制分析,我们表明字符级别的信息被编码在早期和中间层的表示中。然而,这些信息在后面的层中被一小组组件衰减,特别是倒数第二层和最后一层MLP。我们将这些组件识别为负电路:子网络会降低正确的信号,转而支持更高概率但错误的输出。我们的结果表明,LLM中符号推理的失败不是由于缺少表示或规模不足,而是由于模型计算图中的结构化干扰造成的。这解释了为什么这种错误会持续存在,并且在缩放和指令调整下可能会恶化。其次,我们提供的证据表明,LLM前向传递实现了一种竞争性解码的形式,其中正确和不正确的假设共存并被动态地重新加权,最终输出由抑制和放大共同决定。这些发现对可解释性和鲁棒性具有重要意义:简单的符号推理暴露了现代LLM的弱点,强调了确保信息被编码并可靠使用的设计策略的需求。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在简单符号推理任务,特别是字符计数任务上的失败问题。尽管LLM在复杂的基准测试中表现出色,但在诸如“apple中有多少个p?”这样的简单任务中却经常出错。现有的研究未能充分解释这种现象背后的内部机制,以及为何模型内部明明已经计算出正确答案,却无法在输出层正确表达出来。

核心思路:论文的核心思路是通过设计一个最小化的、受控的探针(字符计数任务),将token级别的推理与更高层次的混淆因素隔离开来,从而深入研究LLM内部的计算过程。通过一系列机制分析方法,揭示模型内部的信息流动和处理方式,特别是识别出导致错误输出的关键组件。

技术框架:论文采用了一系列机制分析技术来研究LLM的内部运作机制,主要包括以下几个阶段: 1. 探测分类器 (Probing Classifiers):训练分类器来预测模型内部不同层的表示中是否包含字符计数的信息。 2. 激活修补 (Activation Patching):通过替换模型中间层的激活值来观察其对最终输出的影响,从而确定哪些层对字符计数任务至关重要。 3. Logit Lens 分析:分析模型每一层输出的logits,以了解模型在不同阶段对不同字符的概率预测。 4. 注意力头追踪 (Attention Head Tracing):追踪注意力头的激活,以了解模型在处理字符计数任务时关注了哪些token。

关键创新:论文最重要的技术创新在于发现了LLM中存在的“负电路”现象。这些负电路是指模型后期层中的一些组件(特别是倒数第二层和最后一层MLP),它们会降低正确的信号,转而支持更高概率但错误的输出。这种负电路的存在解释了为什么LLM在内部能够正确计算,但最终却输出错误答案。

关键设计:论文的关键设计包括: 1. 最小化探针:使用字符计数任务作为探针,以减少其他因素的干扰。 2. 多重分析方法:结合多种机制分析技术,从不同角度研究LLM的内部运作。 3. 组件识别:通过激活修补等方法,精确定位到导致错误输出的关键组件(负电路)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,LLM在早期和中间层能够正确编码字符计数信息,但在后期层,特别是倒数第二层和最后一层MLP,存在负电路,会抑制正确的信号。通过激活修补等方法,成功识别并定位了这些负电路,揭示了LLM推理过程中存在的竞争性解码现象。

🎯 应用场景

该研究成果有助于提升LLM的可解释性和鲁棒性,通过理解和消除负电路等干扰因素,可以提高LLM在各种任务中的准确性和可靠性。此外,该研究也为设计更可靠的LLM架构提供了新的思路,例如,可以设计专门的机制来确保信息在模型内部被可靠地编码和使用,避免后期层的抑制。

📄 摘要(原文)

Large language models (LLMs) exhibit failures on elementary symbolic tasks such as character counting in a word, despite excelling on complex benchmarks. Although this limitation has been noted, the internal reasons remain unclear. We use character counting (e.g., "How many p's are in apple?") as a minimal, controlled probe that isolates token-level reasoning from higher-level confounds. Using this setting, we uncover a consistent phenomenon across modern architectures, including LLaMA, Qwen, and Gemma: models often compute the correct answer internally yet fail to express it at the output layer. Through mechanistic analysis combining probing classifiers, activation patching, logit lens analysis, and attention head tracing, we show that character-level information is encoded in early and mid-layer representations. However, this information is attenuated by a small set of components in later layers, especially the penultimate and final layer MLP. We identify these components as negative circuits: subnetworks that downweight correct signals in favor of higher-probability but incorrect outputs. Our results lead to two contributions. First, we show that symbolic reasoning failures in LLMs are not due to missing representations or insufficient scale, but arise from structured interference within the model's computation graph. This explains why such errors persist and can worsen under scaling and instruction tuning. Second, we provide evidence that LLM forward passes implement a form of competitive decoding, in which correct and incorrect hypotheses coexist and are dynamically reweighted, with final outputs determined by suppression as much as by amplification. These findings carry implications for interpretability and robustness: simple symbolic reasoning exposes weaknesses in modern LLMs, underscoring need for design strategies that ensure information is encoded and reliably used.