DeltaMem: Towards Agentic Memory Management via Reinforcement Learning

📄 arXiv: 2604.01560v1 📥 PDF

作者: Qi Zhang, Shen Huang, Chu Liu, Shouqing Yang, Junbo Zhao, Haobo Wang, Pengjun Xie

分类: cs.CL

发布日期: 2026-04-02

备注: preprint, under review


💡 一句话要点

提出DeltaMem,通过强化学习实现面向Agent的记忆管理,提升对话场景性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Agent记忆管理 强化学习 对话系统 长期记忆 角色扮演

📋 核心要点

  1. 现有角色记忆管理框架复杂,易丢失信息,且在不同场景下表现不稳定,导致性能欠佳。
  2. DeltaMem将角色记忆管理建模为单Agent端到端任务,并设计强化学习框架优化记忆管理。
  3. 实验表明,DeltaMem在多个长期记忆基准测试中超越现有基线,验证了其有效性。

📝 摘要(中文)

本文提出DeltaMem,一个面向Agent的记忆管理系统,将以角色为中心的记忆管理构建为单Agent环境下的端到端任务。受人类记忆演化的启发,本文合成了用户-助手对话数据集,并标注了操作级别的记忆更新标签。此外,引入了一种基于记忆的Levenshtein距离来形式化记忆更新奖励,并提出了定制的强化学习框架,以进一步增强DeltaMem的管理能力。大量实验表明,无论是否经过强化学习训练,DeltaMem在LoCoMo、HaluMem和PersonaMem等多种长期记忆基准测试中,均优于所有产品级基线。

🔬 方法详解

问题定义:现有以角色为中心的记忆管理框架通常较为复杂,在信息整合和更新过程中容易丢失关键信息,并且在面对不同对话场景时表现出脆弱性,难以保证长期对话的一致性和流畅性。因此,如何设计一个鲁棒且高效的记忆管理系统,以适应不同的对话场景,是本文要解决的核心问题。

核心思路:本文的核心思路是将角色记忆管理问题转化为一个单Agent的强化学习任务。通过将记忆更新过程视为Agent的动作,并设计合适的奖励函数来引导Agent学习最优的记忆管理策略。这种方法能够避免复杂的多Agent协调问题,并允许Agent根据对话历史和当前状态动态地调整记忆内容。

技术框架:DeltaMem的整体框架包含以下几个主要模块:1) 对话编码器:用于将用户和Agent的对话历史编码成向量表示。2) 记忆模块:用于存储和检索角色记忆。3) 策略网络:基于对话编码和记忆状态,预测记忆更新操作(例如,添加、删除、修改记忆)。4) 奖励函数:基于记忆更新操作对对话质量的影响,提供反馈信号。5) 强化学习算法:用于训练策略网络,使其能够学习最优的记忆管理策略。

关键创新:DeltaMem的关键创新在于:1) 将角色记忆管理建模为单Agent强化学习任务,简化了系统设计。2) 提出了基于记忆的Levenshtein距离的奖励函数,能够更准确地评估记忆更新操作对对话质量的影响。3) 合成了用户-助手对话数据集,并标注了操作级别的记忆更新标签,为强化学习提供了高质量的训练数据。

关键设计:在奖励函数设计方面,本文提出了Memory-based Levenshtein Distance,用于衡量记忆更新前后对话质量的变化。具体来说,首先使用更新前后的记忆生成回复,然后计算这两个回复与参考回复之间的Levenshtein距离。距离的减少被视为正向奖励,距离的增加被视为负向奖励。在强化学习算法方面,本文采用了PPO算法,并对策略网络进行了微调,以适应记忆管理任务的特点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeltaMem在LoCoMo、HaluMem和PersonaMem等多个长期记忆基准测试中,均优于所有产品级基线。例如,在PersonaMem数据集上,DeltaMem相较于最佳基线提升了超过5%。此外,经过强化学习训练的DeltaMem进一步提升了性能,验证了强化学习在记忆管理中的有效性。

🎯 应用场景

DeltaMem可应用于各种对话系统,如智能客服、虚拟助手和社交机器人等。通过有效管理角色记忆,DeltaMem能够提升对话的一致性、流畅性和个性化程度,从而改善用户体验。该研究对于构建更智能、更人性化的对话系统具有重要意义,并有望推动人机交互领域的发展。

📄 摘要(原文)

Recent advances in persona-centric memory have revealed the powerful capability of multi-agent systems in managing persona memory, especially in conversational scenarios. However, these complex frameworks often suffer from information loss and are fragile across varying scenarios, resulting in suboptimal performance. In this paper, we propose DeltaMem, an agentic memory management system that formulates persona-centric memory management as an end-to-end task within a single-agent setting. To further improve the performance of our agentic memory manager, we draw inspiration from the evolution of human memory and synthesize a user-assistant dialogue dataset along with corresponding operation-level memory updating labels. Building on this, we introduce a novel Memory-based Levenshtein Distance to formalize the memory updating reward, and propose a tailored reinforcement learning framework to further enhance the management capabilities of DeltaMem. Extensive experiments show that both training-free and RL-trained DeltaMem outperform all product-level baselines across diverse long-term memory benchmarks, including LoCoMo, HaluMem, and PersonaMem.