Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

作者: Natchanon Pollertlam, Witchayut Kornsuwannawit

分类: cs.CL

发布日期: 2026-03-05

备注: 15 pages, 1 figure

💡 一句话要点

对比长上下文LLM与事实型记忆系统，为持久Agent选择提供成本-性能分析。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长上下文LLM 事实型记忆系统 成本分析 持久Agent 对话AI

📋 核心要点

现有持久对话AI系统面临长上下文处理的挑战，需要权衡直接使用长上下文LLM和维护外部记忆系统。
论文提出对比分析长上下文LLM和事实型记忆系统，从准确性和API成本两方面评估其性能。
实验结果表明，长上下文LLM在事实召回率上更优，但记忆系统在特定任务和长程交互中更具成本优势。

📝 摘要（中文）

持久对话AI系统面临选择：是将完整的对话历史传递给长上下文大型语言模型（LLM），还是维护一个专门的记忆系统来提取和检索结构化事实。本文将基于Mem0框架构建的事实型记忆系统与长上下文LLM推理在三个以记忆为中心的基准测试（LongMemEval、LoCoMo和PersonaMemv2）上进行比较，并评估两种架构的准确性和累积API成本。长上下文GPT-5-mini在LongMemEval和LoCoMo上实现了更高的事实召回率，而记忆系统在PersonaMemv2上具有竞争力，因为角色一致性依赖于适合平面类型提取的稳定、事实属性。本文构建了一个包含提示缓存的成本模型，表明两种架构具有结构上不同的成本曲线：即使在缓存下，长上下文推理也会产生随上下文长度增长的每轮费用，而记忆系统的每轮读取成本在一次性写入阶段后大致保持不变。在100k tokens的上下文长度下，记忆系统在大约十次交互后变得更便宜，并且盈亏平衡点随着上下文长度的增长而降低。这些结果描述了两种方法之间的准确性-成本权衡，并为在生产部署中选择它们提供了一个具体的标准。

🔬 方法详解

问题定义：持久对话AI系统需要记住并利用对话历史。直接使用长上下文LLM需要处理不断增长的上下文，导致推理成本增加。维护外部记忆系统则需要额外的提取和检索机制，但可以降低单轮推理成本。现有方法缺乏对这两种方案的成本-性能的全面分析。

核心思路：论文的核心思路是通过实验对比长上下文LLM和事实型记忆系统在不同任务和上下文长度下的准确性和API成本，从而为持久Agent选择合适的架构提供依据。通过构建成本模型，分析两种方案在不同交互轮次下的成本变化。

技术框架：整体框架包含两个主要分支：一是直接使用长上下文LLM进行推理，二是使用事实型记忆系统。事实型记忆系统基于Mem0框架，包含事实提取、存储和检索三个阶段。论文在LongMemEval、LoCoMo和PersonaMemv2三个基准测试上评估两种架构的性能。

关键创新：论文的关键创新在于对长上下文LLM和事实型记忆系统进行了全面的成本-性能分析，并提出了一个具体的选择标准。通过构建成本模型，揭示了两种架构在不同上下文长度和交互轮次下的成本变化规律。强调了在实际应用中，需要根据具体任务和成本预算来选择合适的架构。

关键设计：论文使用GPT-5-mini作为长上下文LLM的代表，并基于Mem0框架构建事实型记忆系统。成本模型考虑了提示缓存的影响，并分析了不同上下文长度下的盈亏平衡点。实验中，使用了LongMemEval、LoCoMo和PersonaMemv2三个基准测试，并评估了准确性和API成本两个指标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，长上下文GPT-5-mini在LongMemEval和LoCoMo上实现了更高的事实召回率，而记忆系统在PersonaMemv2上具有竞争力。成本分析表明，在100k tokens的上下文长度下，记忆系统在大约十次交互后变得更便宜。这些结果为选择合适的架构提供了具体的依据。

🎯 应用场景

该研究成果可应用于各种需要持久记忆的对话AI系统，例如智能客服、虚拟助手和游戏角色。通过分析成本-性能权衡，开发者可以根据具体应用场景选择最合适的架构，从而优化系统性能和降低运营成本。该研究也为未来持久Agent的设计提供了重要的参考。

📄 摘要（原文）

Persistent conversational AI systems face a choice between passing full conversation histories to a long-context large language model (LLM) and maintaining a dedicated memory system that extracts and retrieves structured facts. We compare a fact-based memory system built on the Mem0 framework against long-context LLM inference on three memory-centric benchmarks - LongMemEval, LoCoMo, and PersonaMemv2 - and evaluate both architectures on accuracy and cumulative API cost. Long-context GPT-5-mini achieves higher factual recall on LongMemEval and LoCoMo, while the memory system is competitive on PersonaMemv2, where persona consistency depends on stable, factual attributes suited to flat-typed extraction. We construct a cost model that incorporates prompt caching and show that the two architectures have structurally different cost profiles: long-context inference incurs a per-turn charge that grows with context length even under caching, while the memory system's per-turn read cost remains roughly fixed after a one-time write phase. At a context length of 100k tokens, the memory system becomes cheaper after approximately ten interaction turns, with the break-even point decreasing as context length grows. These results characterize the accuracy-cost trade-off between the two approaches and provide a concrete criterion for selecting between them in production deployments.

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理