Emerging Human-like Strategies for Semantic Memory Foraging in Large Language Models

📄 arXiv: 2603.01822v1 📥 PDF

作者: Eric Lacosse, Mariana Duarte, Peter M. Todd, Daniel C. McNamee

分类: cs.AI

发布日期: 2026-03-02


💡 一句话要点

提出人类类策略以增强大语言模型的语义记忆获取能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义记忆 大型语言模型 机制可解释性 人机交互 认知对齐 生成记忆搜索 语义流畅性任务

📋 核心要点

  1. 现有方法在理解大型语言模型的语义记忆获取机制方面存在不足,缺乏系统的可解释性分析。
  2. 论文通过引入机制可解释性技术,分析语义流畅性任务(SFT)中的记忆搜索模式,以提升对LLMs的理解。
  3. 研究结果表明,LLMs在不同层次中展现出与人类相似的记忆搜索行为,为人机交互提供了新的认知对齐或不对齐的策略。

📝 摘要(中文)

人类和大型语言模型(LLMs)都存储着大量的语义记忆。有效和战略性地访问这些记忆是多种认知功能的基础。本文旨在运用机制可解释性技术,深入研究LLMs中的语义记忆获取,特别是通过语义流畅性任务(SFT)作为案例研究。研究发现,LLMs在不同层次中展现出与人类在SFT中的表现相似的生成记忆搜索模式,这为LLMs与人类的认知对齐或认知不对齐提供了新的见解。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在语义记忆获取中的机制不明确问题。现有方法未能充分揭示LLMs如何有效地进行记忆搜索,导致对其认知能力的理解不足。

核心思路:通过应用机制可解释性技术,研究语义流畅性任务(SFT)中的记忆搜索模式,揭示LLMs在生成记忆时的行为特征,以此提高对其认知过程的理解。

技术框架:研究采用了分层分析的方法,重点关注LLMs在不同层次的生成记忆搜索行为。主要模块包括数据预处理、模型训练、行为模式识别和结果分析。

关键创新:论文的创新点在于首次将人类的记忆搜索策略与LLMs的生成行为进行对比,揭示了两者在记忆获取中的相似性与差异性,推动了对LLMs认知能力的深入理解。

关键设计:在实验中,采用了特定的损失函数和网络结构,以优化LLMs在SFT任务中的表现,确保生成的记忆搜索模式能够与人类的行为特征相匹配。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LLMs在不同层次中展现出与人类在SFT中的相似记忆搜索模式,表明其生成行为具有可识别的模式。这一发现为未来的认知对齐研究提供了重要的实验依据,可能推动LLMs在实际应用中的性能提升。

🎯 应用场景

该研究的潜在应用领域包括人机交互、智能助手和教育技术等。通过更好地理解LLMs的语义记忆获取机制,可以提升其在实际应用中的表现,使其更好地适应人类的认知方式,从而增强人机协作的效率和效果。

📄 摘要(原文)

Both humans and Large Language Models (LLMs) store a vast repository of semantic memories. In humans, efficient and strategic access to this memory store is a critical foundation for a variety of cognitive functions. Such access has long been a focus of psychology and the computational mechanisms behind it are now well characterized. Much of this understanding has been gleaned from a widely-used neuropsychological and cognitive science assessment called the Semantic Fluency Task (SFT), which requires the generation of as many semantically constrained concepts as possible. Our goal is to apply mechanistic interpretability techniques to bring greater rigor to the study of semantic memory foraging in LLMs. To this end, we present preliminary results examining SFT as a case study. A central focus is on convergent and divergent patterns of generative memory search, which in humans play complementary strategic roles in efficient memory foraging. We show that these same behavioral signatures, critical to human performance on the SFT, also emerge as identifiable patterns in LLMs across distinct layers. Potentially, this analysis provides new insights into how LLMs may be adapted into closer cognitive alignment with humans, or alternatively, guided toward productive cognitive \emph{disalignment} to enhance complementary strengths in human-AI interaction.