Diagnosing Memorization in Chain-of-Thought Reasoning, One Token at a Time
作者: Huihan Li, You Chen, Siyuan Wang, Yixin He, Ninareh Mehrabi, Rahul Gupta, Xiang Ren
分类: cs.CL, cs.AI
发布日期: 2025-08-04 (更新: 2025-08-20)
💡 一句话要点
提出STIM框架以诊断链式思维推理中的记忆化问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 链式思维 记忆化 推理能力 统计分析 自然语言处理 错误诊断
📋 核心要点
- 现有大型语言模型在推理任务中表现出色,但在输入微小变化时常常出现错误,表明其推理能力可能依赖于记忆化。
- 本文提出STIM框架,通过源感知的方式对推理链中的每个标记进行记忆化来源的识别,帮助分析模型的推理过程。
- 实验结果显示,复杂任务中模型对记忆化的依赖性增强,局部记忆化导致的错误占比高达67%,STIM有效预测错误标记。
📝 摘要(中文)
大型语言模型(LLMs)在推理基准测试中表现良好,但在输入稍有变化时常常失败,这引发了对其成功是否依赖于记忆化的担忧。特别是在链式思维(CoT)推理中,虚假的记忆模式可能导致中间错误,进而影响最终答案的正确性。本文提出了一种新颖的框架STIM,用于源感知的记忆化标识,能够根据与预训练语料库中标记的统计共现关系,将推理链中的每个标记归因于多个记忆源。我们的分析表明,模型在复杂或长尾案例中更依赖记忆化,而局部记忆化通常是错误的主要驱动因素,导致多达67%的错误标记。STIM的记忆化评分在预测错误推理步骤中的错误标记方面也表现出有效性。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在链式思维推理中因记忆化导致的错误问题。现有方法未能有效识别和分析记忆化对推理结果的影响,尤其是在输入变化时的表现不稳定。
核心思路:STIM框架通过分析推理链中每个标记的来源,识别其与预训练语料库的统计关系,从而判断记忆化的影响。此设计旨在提供更细粒度的错误分析,帮助改进模型推理能力。
技术框架:STIM框架包括数据预处理、标记归因、统计分析和结果可视化等模块。首先,对推理链进行标记分析,然后根据统计共现关系归因于不同的记忆源,最后输出可视化结果以便于理解和改进。
关键创新:STIM的主要创新在于其源感知的记忆化标识能力,能够将每个标记的错误归因于局部、中程或远程记忆源,这一方法在现有文献中尚属首次。
关键设计:在实现过程中,STIM采用了特定的统计方法来计算标记的共现频率,并设计了相应的损失函数以优化模型的推理过程。
📊 实验亮点
实验结果表明,STIM能够有效识别出多达67%的错误标记,尤其是在复杂或长尾任务中,模型对记忆化的依赖性显著增强。STIM的记忆化评分在预测错误推理步骤中的表现优于现有基线,展示了其在推理诊断中的有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理中的推理任务、对话系统和教育技术等。通过改善模型的推理能力,STIM可以帮助开发更智能的AI助手,提升用户体验。此外,该框架的通用性使其能够应用于其他结构化生成任务,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Large Language Models (LLMs) perform well on reasoning benchmarks but often fail when inputs alter slightly, raising concerns about the extent to which their success relies on memorization. This issue is especially acute in Chain-of-Thought (CoT) reasoning, where spurious memorized patterns can trigger intermediate errors that cascade into incorrect final answers. We introduce STIM, a novel framework for Source-aware Token-level Identification of Memorization, which attributes each token in a reasoning chain to one of multiple memorization sources - local, mid-range, or long-range - based on their statistical co-occurrence with the token in the pretraining corpus. Our token-level analysis across tasks and distributional settings reveals that models rely more on memorization in complex or long-tail cases, and that local memorization is often the dominant driver of errors, leading to up to 67% of wrong tokens. We also show that memorization scores from STIM can be effective in predicting the wrong tokens in the wrong reasoning step. STIM offers a powerful tool for diagnosing and improving model reasoning and can generalize to other structured step-wise generation tasks.