Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory
作者: Zhenting Wang, Huancheng Chen, Jiayun Wang, Wei Wei
分类: cs.CL, cs.LG
发布日期: 2026-03-04
💡 一句话要点
Memex(RL):通过索引经验记忆扩展长时程LLM Agent
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长时程任务 LLM Agent 经验记忆 强化学习 索引 上下文窗口 奖励塑造
📋 核心要点
- 现有LLM Agent受限于有限的上下文窗口,难以处理长时程任务中不断增长的轨迹,导致信息丢失。
- Memex通过索引经验记忆机制,在不丢弃证据的情况下压缩上下文,Agent可按需检索精确的过去信息。
- MemexRL框架优化Agent的写入和读取行为,使其学习如何总结、存档、索引和检索信息,提升任务成功率。
📝 摘要(中文)
大型语言模型(LLM)Agent在长时程任务中受到有限上下文窗口的根本限制。随着轨迹的增长,在上下文中保留工具输出和中间推理变得不可行:工作上下文变得过长,最终超过上下文预算,并且即使存在,也使得远距离证据难以使用。现有的解决方案通常通过截断或运行摘要来缩短上下文,但这些方法本质上是有损的,因为它们压缩或丢弃了过去的证据本身。我们引入Memex,一种索引经验记忆机制,它在不丢弃证据的情况下压缩上下文。Memex维护一个紧凑的工作上下文,由简洁的结构化摘要和稳定的索引组成,同时将完整的基础交互存储在这些索引下的外部经验数据库中。然后,Agent可以决定何时取消引用索引并恢复当前子目标所需的精确过去证据。我们使用强化学习框架MemexRL优化写入和读取行为,使用针对上下文预算下的索引内存使用量身定制的奖励塑造,因此Agent学习总结什么、存档什么、如何索引以及何时检索它。这产生了一种比仅摘要方法损失更小的长时程记忆形式。我们进一步提供了一个理论分析,表明Memex循环具有在保持有效上下文计算随着历史增长而有界的同时,通过有界取消引用来保持决策质量的潜力。在经验上,在具有挑战性的长时程任务中,使用MemexRL训练的Memex Agent在显着更小的工作上下文中使用时提高了任务成功率。
🔬 方法详解
问题定义:现有LLM Agent在处理长时程任务时,由于上下文窗口的限制,无法有效地利用历史信息。简单地截断或总结历史信息会导致关键证据的丢失,影响决策质量。因此,如何有效地管理和利用长时程任务中的历史经验是亟待解决的问题。
核心思路:Memex的核心思路是引入索引经验记忆机制,将完整的历史交互信息存储在外部数据库中,并使用简洁的结构化摘要和索引来表示这些信息。Agent可以根据当前子目标,选择性地检索相关的历史信息,从而避免信息丢失,并提高决策质量。
技术框架:Memex的整体框架包括以下几个主要模块:1) 经验数据库:用于存储完整的历史交互信息。2) 索引模块:负责生成和维护指向经验数据库中信息的索引。3) 摘要模块:负责生成历史信息的简洁摘要,用于构建紧凑的工作上下文。4) 检索模块:负责根据当前子目标,从经验数据库中检索相关的历史信息。5) Agent:利用工作上下文和检索到的历史信息进行决策。MemexRL框架使用强化学习来优化Agent的写入和读取行为。
关键创新:Memex的关键创新在于其索引经验记忆机制,它允许Agent在不丢弃证据的情况下压缩上下文,并按需检索精确的过去信息。与传统的截断或总结方法相比,Memex能够更好地保留历史信息,并提高决策质量。此外,MemexRL框架通过强化学习优化Agent的记忆使用策略,使其能够更有效地利用经验记忆。
关键设计:MemexRL使用奖励塑造来指导Agent学习如何总结、存档、索引和检索信息。奖励函数的设计考虑了上下文预算的限制,鼓励Agent生成简洁的摘要和有效的索引。具体的奖励包括:1) 任务奖励:根据任务的完成情况给予奖励。2) 上下文预算奖励:根据上下文的使用情况给予奖励,鼓励Agent保持上下文的紧凑性。3) 检索奖励:根据检索到的信息对决策的贡献给予奖励,鼓励Agent检索相关的信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用MemexRL训练的Memex Agent在长时程任务中取得了显著的性能提升。具体来说,Memex Agent在保持较小工作上下文的情况下,任务成功率得到了显著提高。与传统的仅摘要方法相比,Memex Agent能够更好地利用历史信息,并做出更明智的决策。实验结果验证了Memex的有效性,并表明其在长时程任务中具有巨大的潜力。
🎯 应用场景
Memex具有广泛的应用前景,例如:1) 机器人导航:帮助机器人在复杂环境中进行长期规划和决策。2) 智能客服:使客服系统能够更好地理解用户的问题,并提供更准确的解决方案。3) 游戏AI:提升游戏AI的智能水平,使其能够更好地适应游戏环境,并与玩家进行互动。Memex的引入有望提升Agent在长时程任务中的表现,并推动人工智能技术的发展。
📄 摘要(原文)
Large language model (LLM) agents are fundamentally bottlenecked by finite context windows on long-horizon tasks. As trajectories grow, retaining tool outputs and intermediate reasoning in-context quickly becomes infeasible: the working context becomes prohibitively long, eventually exceeds the context budget, and makes distant evidence harder to use even when it is still present. Existing solutions typically shorten context through truncation or running summaries, but these methods are fundamentally lossy because they compress or discard past evidence itself. We introduce Memex, an indexed experience memory mechanism that instead compresses context without discarding evidence. Memex maintains a compact working context consisting of concise structured summaries and stable indices, while storing full-fidelity underlying interactions in an external experience database under those indices. The agent can then decide when to dereference an index and recover the exact past evidence needed for the current subgoal. We optimize both write and read behaviors with our reinforcement learning framework MemexRL, using reward shaping tailored to indexed memory usage under a context budget, so the agent learns what to summarize, what to archive, how to index it, and when to retrieve it. This yields a substantially less lossy form of long-horizon memory than summary-only approaches. We further provide a theoretical analysis showing the potential of the Memex loop to preserve decision quality with bounded dereferencing while keeping effective in-context computation bounded as history grows. Empirically, on challenging long-horizon tasks, Memex agent trained with MemexRL improves task success while using a significantly smaller working context.