EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory

作者: Ye Shen, Dun Pei, Yiqiu Guo, Junying Wang, Yijin Guo, Zicheng Zhang, Qi Jia, Jun Zhou, Guangtao Zhai

分类: cs.CL

发布日期: 2026-01-07

备注: 14 pages, 7 figures, 8 tables

🔗 代码/项目: GITHUB

💡 一句话要点

EvolMem：一个认知驱动的多轮对话记忆评估基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多轮对话记忆 大型语言模型 认知心理学 评估基准 数据合成 陈述性记忆 非陈述性记忆 代理记忆

📋 核心要点

现有对话记忆基准缺乏对大型语言模型在多轮对话中记忆能力的多维度系统评估。
EvolMem基准基于认知心理学，区分陈述性和非陈述性记忆，并采用混合数据合成框架生成对话。
实验表明，没有单一LLM在所有记忆维度上表现最佳，且现有代理记忆机制存在效率瓶颈。

📝 摘要（中文）

本文提出了EvolMem，一个新的基准，用于评估大型语言模型（LLMs）和代理系统在多轮对话场景下的记忆能力。EvolMem基于认知心理学，涵盖了陈述性记忆和非陈述性记忆，并进一步分解为多个细粒度的能力。为了构建该基准，本文引入了一种混合数据合成框架，该框架由主题启动生成和叙事启发式转换组成。该框架能够可扩展地生成具有可控复杂性的多轮对话，并附带特定于样本的评估指南。广泛的评估表明，没有LLM在所有记忆维度上始终优于其他LLM。此外，代理记忆机制不一定能增强LLM的能力，并且常常表现出显著的效率限制。数据和代码将在https://github.com/shenye7436/EvolMem上发布。

🔬 方法详解

问题定义：现有的大型语言模型在理解和利用长程对话记忆方面取得了显著进展，但现有的基准测试仍然缺乏对LLM在不同记忆维度上的系统评估，尤其是在多轮对话场景中。现有方法难以全面评估LLM在复杂对话场景下的记忆能力，无法有效区分不同类型的记忆能力，并且缺乏可控的数据生成方法。

核心思路：EvolMem的核心思路是构建一个基于认知心理学的多轮对话记忆评估基准，该基准能够全面评估LLM在陈述性记忆和非陈述性记忆方面的能力。通过设计细粒度的评估指标和可控的数据生成方法，EvolMem旨在更准确地衡量LLM在多轮对话中的记忆表现。

技术框架：EvolMem的整体框架包括数据合成、评估指标定义和实验评估三个主要阶段。数据合成阶段采用混合数据合成框架，包括主题启动生成和叙事启发式转换。评估指标定义阶段基于认知心理学，将记忆能力分解为多个细粒度的维度。实验评估阶段则使用EvolMem基准对不同的LLM和代理系统进行评估。

关键创新：EvolMem的关键创新在于其基于认知心理学对记忆能力进行细粒度划分，并提出了混合数据合成框架，实现了可控的多轮对话数据生成。此外，EvolMem还提供了特定于样本的评估指南，提高了评估的准确性和可靠性。

关键设计：在数据合成方面，主题启动生成用于生成初始对话，叙事启发式转换则用于引入复杂性和变化。评估指标包括准确率、召回率、F1值等，用于衡量LLM在不同记忆维度上的表现。具体参数设置和网络结构的选择取决于所评估的LLM和代理系统。

📊 实验亮点

实验结果表明，没有单一LLM在EvolMem的所有记忆维度上始终优于其他模型。此外，实验还发现，现有的代理记忆机制不一定能有效提升LLM的记忆能力，并且常常存在效率瓶颈。这些发现为未来的研究提供了重要的启示。

🎯 应用场景

EvolMem基准可用于评估和改进大型语言模型在对话系统、智能助手、客户服务等领域的应用。通过更准确地评估LLM的记忆能力，可以帮助开发者设计更智能、更可靠的对话系统，提升用户体验，并推动相关技术的发展。

📄 摘要（原文）

Despite recent advances in understanding and leveraging long-range conversational memory, existing benchmarks still lack systematic evaluation of large language models(LLMs) across diverse memory dimensions, particularly in multi-session settings. In this work, we propose EvolMem, a new benchmark for assessing multi-session memory capabilities of LLMs and agent systems. EvolMem is grounded in cognitive psychology and encompasses both declarative and non-declarative memory, further decomposed into multiple fine-grained abilities. To construct the benchmark, we introduce a hybrid data synthesis framework that consists of topic-initiated generation and narrative-inspired transformations. This framework enables scalable generation of multi-session conversations with controllable complexity, accompanied by sample-specific evaluation guidelines. Extensive evaluation reveals that no LLM consistently outperforms others across all memory dimensions. Moreover, agent memory mechanisms do not necessarily enhance LLMs' capabilities and often exhibit notable efficiency limitations. Data and code will be released at https://github.com/shenye7436/EvolMem.

EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册