Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents
作者: Natchanon Pollertlam, Witchayut Kornsuwannawit
分类: cs.CL
发布日期: 2026-03-05
备注: 15 pages, 1 figure
💡 一句话要点
对比长上下文LLM与事实型记忆系统,为持久Agent选择提供成本-性能分析。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长上下文LLM 事实型记忆系统 成本分析 持久Agent 对话AI
📋 核心要点
- 现有持久对话AI系统面临长上下文处理的挑战,需要权衡直接使用长上下文LLM和维护外部记忆系统。
- 论文提出对比分析长上下文LLM和事实型记忆系统,从准确性和API成本两方面评估其性能。
- 实验结果表明,长上下文LLM在事实召回率上更优,但记忆系统在特定任务和长程交互中更具成本优势。
📝 摘要(中文)
持久对话AI系统面临选择:是将完整的对话历史传递给长上下文大型语言模型(LLM),还是维护一个专门的记忆系统来提取和检索结构化事实。本文将基于Mem0框架构建的事实型记忆系统与长上下文LLM推理在三个以记忆为中心的基准测试(LongMemEval、LoCoMo和PersonaMemv2)上进行比较,并评估两种架构的准确性和累积API成本。长上下文GPT-5-mini在LongMemEval和LoCoMo上实现了更高的事实召回率,而记忆系统在PersonaMemv2上具有竞争力,因为角色一致性依赖于适合平面类型提取的稳定、事实属性。本文构建了一个包含提示缓存的成本模型,表明两种架构具有结构上不同的成本曲线:即使在缓存下,长上下文推理也会产生随上下文长度增长的每轮费用,而记忆系统的每轮读取成本在一次性写入阶段后大致保持不变。在100k tokens的上下文长度下,记忆系统在大约十次交互后变得更便宜,并且盈亏平衡点随着上下文长度的增长而降低。这些结果描述了两种方法之间的准确性-成本权衡,并为在生产部署中选择它们提供了一个具体的标准。
🔬 方法详解
问题定义:持久对话AI系统需要记住并利用对话历史。直接使用长上下文LLM需要处理不断增长的上下文,导致推理成本增加。维护外部记忆系统则需要额外的提取和检索机制,但可以降低单轮推理成本。现有方法缺乏对这两种方案的成本-性能的全面分析。
核心思路:论文的核心思路是通过实验对比长上下文LLM和事实型记忆系统在不同任务和上下文长度下的准确性和API成本,从而为持久Agent选择合适的架构提供依据。通过构建成本模型,分析两种方案在不同交互轮次下的成本变化。
技术框架:整体框架包含两个主要分支:一是直接使用长上下文LLM进行推理,二是使用事实型记忆系统。事实型记忆系统基于Mem0框架,包含事实提取、存储和检索三个阶段。论文在LongMemEval、LoCoMo和PersonaMemv2三个基准测试上评估两种架构的性能。
关键创新:论文的关键创新在于对长上下文LLM和事实型记忆系统进行了全面的成本-性能分析,并提出了一个具体的选择标准。通过构建成本模型,揭示了两种架构在不同上下文长度和交互轮次下的成本变化规律。强调了在实际应用中,需要根据具体任务和成本预算来选择合适的架构。
关键设计:论文使用GPT-5-mini作为长上下文LLM的代表,并基于Mem0框架构建事实型记忆系统。成本模型考虑了提示缓存的影响,并分析了不同上下文长度下的盈亏平衡点。实验中,使用了LongMemEval、LoCoMo和PersonaMemv2三个基准测试,并评估了准确性和API成本两个指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,长上下文GPT-5-mini在LongMemEval和LoCoMo上实现了更高的事实召回率,而记忆系统在PersonaMemv2上具有竞争力。成本分析表明,在100k tokens的上下文长度下,记忆系统在大约十次交互后变得更便宜。这些结果为选择合适的架构提供了具体的依据。
🎯 应用场景
该研究成果可应用于各种需要持久记忆的对话AI系统,例如智能客服、虚拟助手和游戏角色。通过分析成本-性能权衡,开发者可以根据具体应用场景选择最合适的架构,从而优化系统性能和降低运营成本。该研究也为未来持久Agent的设计提供了重要的参考。
📄 摘要(原文)
Persistent conversational AI systems face a choice between passing full conversation histories to a long-context large language model (LLM) and maintaining a dedicated memory system that extracts and retrieves structured facts. We compare a fact-based memory system built on the Mem0 framework against long-context LLM inference on three memory-centric benchmarks - LongMemEval, LoCoMo, and PersonaMemv2 - and evaluate both architectures on accuracy and cumulative API cost. Long-context GPT-5-mini achieves higher factual recall on LongMemEval and LoCoMo, while the memory system is competitive on PersonaMemv2, where persona consistency depends on stable, factual attributes suited to flat-typed extraction. We construct a cost model that incorporates prompt caching and show that the two architectures have structurally different cost profiles: long-context inference incurs a per-turn charge that grows with context length even under caching, while the memory system's per-turn read cost remains roughly fixed after a one-time write phase. At a context length of 100k tokens, the memory system becomes cheaper after approximately ten interaction turns, with the break-even point decreasing as context length grows. These results characterize the accuracy-cost trade-off between the two approaches and provide a concrete criterion for selecting between them in production deployments.