Mechanistic Interpretability of Large-Scale Counting in LLMs through a System-2 Strategy

📄 arXiv: 2601.02989v1 📥 PDF

作者: Hosein Hasani, Mohammadali Banayeeanzade, Ali Nafisi, Sadegh Mohammadian, Fatemeh Askari, Mobin Bagherian, Amirmohammad Izadi, Mahdieh Soleymani Baghshah

分类: cs.CL

发布日期: 2026-01-06


💡 一句话要点

提出System-2策略,提升LLM在大规模计数任务中的准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 计数任务 System-2认知 机制可解释性 注意力机制

📋 核心要点

  1. Transformer架构的深度限制了LLM在大型计数任务中的精度,现有方法难以有效解决。
  2. 论文提出一种受System-2认知过程启发的策略,将复杂计数分解为多个简单子问题。
  3. 实验表明,该策略显著提升了LLM在大规模计数任务中的准确性,突破了架构限制。

📝 摘要(中文)

大型语言模型(LLM)在复杂的数学问题上表现出色,但在计数任务中存在系统性限制。这源于Transformer架构的局限性,计数操作跨层进行,导致深度约束下,计数规模越大精度越低。为了解决这个问题,我们提出了一种受System-2认知过程启发的简单测试时策略,将大型计数任务分解为模型可以可靠解决的更小、独立的子问题。我们使用观察性和因果中介分析来理解这种类System-2策略的潜在机制。我们的机制分析确定了关键组成部分:潜在计数在每个部分的最终项目表示中计算和存储,通过专用注意力头传递到中间步骤,并在最后阶段聚合以产生总计数。实验结果表明,该策略使LLM能够超越架构限制,并在大规模计数任务中实现高精度。这项工作提供了对LLM中System-2计数的机制性见解,并提出了一种通用方法来改进和理解它们的推理行为。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在执行大规模计数任务时遇到的精度瓶颈问题。现有的Transformer架构由于其深度限制,导致计数操作必须跨多个层进行,这使得模型在处理更大规模的计数问题时,精度会显著下降。因此,如何提升LLM在大规模计数任务中的计数精度是本文要解决的核心问题。

核心思路:论文的核心思路是借鉴人类认知中的System-2思维模式,将一个复杂的、大规模的计数任务分解成多个更小、更简单的子任务。LLM可以更准确地解决这些子任务,然后将子任务的结果进行聚合,从而得到最终的计数结果。这种“分而治之”的策略旨在规避Transformer架构的深度限制,提高整体计数精度。

技术框架:该方法主要包含以下几个阶段:1) 任务分解:将原始的大规模计数任务分解为若干个独立的子任务,每个子任务涉及较小规模的计数。2) 子任务处理:利用LLM处理每个子任务,得到每个子任务的局部计数结果。3) 信息传递:通过特定的注意力头(attention heads)将每个子任务的局部计数信息传递到后续的处理步骤。4) 结果聚合:在最终阶段,将所有子任务的局部计数结果进行聚合,得到最终的全局计数结果。

关键创新:该论文的关键创新在于将System-2认知过程引入到LLM的计数任务中。与传统的端到端计数方法不同,该方法通过分解任务,使得LLM能够更有效地利用其现有的能力来解决复杂问题。此外,通过因果中介分析,论文还深入研究了LLM内部进行计数的机制,揭示了关键的注意力头在信息传递中的作用。

关键设计:论文的关键设计包括:1) 子任务划分策略:如何将原始任务分解为最优的子任务,以平衡子任务的复杂度和数量。2) 注意力头选择:选择哪些注意力头来传递局部计数信息,以及如何训练或微调这些注意力头以提高信息传递的效率。3) 聚合函数设计:如何设计聚合函数,以有效地将各个子任务的局部计数结果合并为最终的全局计数结果。论文中可能使用了简单的求和函数,但也可能探索了更复杂的聚合策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该System-2策略显著提升了LLM在大规模计数任务中的准确性。通过将计数任务分解为更小的子问题,模型能够克服Transformer架构的深度限制,实现更高的计数精度。具体的性能数据和对比基线(例如,直接使用LLM进行计数)的提升幅度需要在论文中查找。

🎯 应用场景

该研究成果可应用于需要精确计数的各种场景,例如库存管理、金融交易监控、自然语言处理中的实体识别与统计等。通过提升LLM的计数能力,可以增强其在复杂推理和决策任务中的表现,并为开发更智能的AI系统奠定基础。未来,该方法有望推广到其他类型的复杂任务中,提升LLM的通用问题解决能力。

📄 摘要(原文)

Large language models (LLMs), despite strong performance on complex mathematical problems, exhibit systematic limitations in counting tasks. This issue arises from architectural limits of transformers, where counting is performed across layers, leading to degraded precision for larger counting problems due to depth constraints. To address this limitation, we propose a simple test-time strategy inspired by System-2 cognitive processes that decomposes large counting tasks into smaller, independent sub-problems that the model can reliably solve. We evaluate this approach using observational and causal mediation analyses to understand the underlying mechanism of this System-2-like strategy. Our mechanistic analysis identifies key components: latent counts are computed and stored in the final item representations of each part, transferred to intermediate steps via dedicated attention heads, and aggregated in the final stage to produce the total count. Experimental results demonstrate that this strategy enables LLMs to surpass architectural limitations and achieve high accuracy on large-scale counting tasks. This work provides mechanistic insight into System-2 counting in LLMs and presents a generalizable approach for improving and understanding their reasoning behavior.