Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues
作者: Bingbing Wang, Jing Li, Ruifeng Xu
分类: cs.AI
发布日期: 2026-03-05
💡 一句话要点
提出ProStream,解决无限对话流中Ad-Hoc记忆召回的效率与准确性难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 对话系统 记忆网络 流式处理 分层记忆 Ad-Hoc召回
📋 核心要点
- 现有对话记忆模型难以在无限对话流中进行Ad-Hoc记忆召回,面临保真度和效率的权衡。
- ProStream通过主动分层记忆框架,利用多粒度蒸馏和自适应时空优化,实现高效准确的记忆。
- 实验表明,ProStream在STEM-Bench基准测试中,准确性和效率均优于现有基线方法。
📝 摘要(中文)
本文提出了一种针对无限对话流中受限状态记忆机制的挑战,现有方法无法在流展开时支持Ad-Hoc记忆召回。为此,作者构建了首个用于流式记忆评估的基准测试STEM-Bench,包含超过14K的QA对,用于评估无限视野下的感知保真度、时间推理和全局感知。初步分析表明存在“保真度-效率困境”。为解决此问题,作者提出了ProStream,一种用于流式对话的主动分层记忆框架,通过多粒度蒸馏对连续流进行推理,从而按需实现Ad-Hoc记忆召回。此外,它采用自适应时空优化,根据预期效用动态优化保留,从而在不牺牲推理保真度的情况下,降低推理延迟。实验表明,ProStream在准确性和效率方面均优于基线。
🔬 方法详解
问题定义:现有对话系统在处理无限对话流时,需要维护一个有界状态的记忆机制。然而,现有的“先读后想”的记忆模型无法支持在对话流展开过程中进行Ad-Hoc的记忆召回。检索式方法虽然高效,但只能使用片段化的上下文,而全上下文模型则会导致无限的延迟,无法满足实际应用需求。因此,如何在保证记忆保真度的前提下,提高记忆效率,是本文要解决的核心问题。
核心思路:ProStream的核心思路是构建一个主动的分层记忆框架,通过多粒度蒸馏来处理连续的对话流,从而实现按需的Ad-Hoc记忆召回。通过分层结构,可以对不同粒度的信息进行存储和检索,从而在效率和准确性之间取得平衡。主动性体现在自适应时空优化上,能够根据预期效用动态地调整记忆的保留策略。
技术框架:ProStream框架主要包含以下几个模块:1) 对话流输入模块:接收连续的对话流作为输入。2) 分层记忆模块:构建一个分层的记忆结构,包含不同粒度的信息表示。3) 多粒度蒸馏模块:对对话流进行多粒度的信息提取和蒸馏,将关键信息存储到记忆中。4) Ad-Hoc召回模块:根据用户的查询,从分层记忆中检索相关信息。5) 自适应时空优化模块:根据预期效用,动态地调整记忆的保留策略。
关键创新:ProStream的关键创新在于其主动的分层记忆框架和自适应时空优化策略。与传统的“先读后想”的记忆模型不同,ProStream能够主动地对对话流进行处理和记忆,从而实现高效的Ad-Hoc召回。自适应时空优化策略能够根据实际需求动态地调整记忆的保留策略,从而在效率和准确性之间取得最佳平衡。
关键设计:ProStream中的关键设计包括:1) 分层记忆结构:具体的分层方式(例如,基于时间窗口或语义相似度)以及每一层存储的信息粒度。2) 多粒度蒸馏方法:如何从对话流中提取不同粒度的信息,以及如何将这些信息压缩和存储到记忆中。3) 自适应时空优化策略:如何定义预期效用,以及如何根据预期效用动态地调整记忆的保留策略。具体的损失函数和网络结构的选择会影响最终的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ProStream在STEM-Bench基准测试中,在准确性和效率方面均优于现有的基线方法。具体而言,ProStream在保持较高准确率的同时,显著降低了推理延迟,有效解决了“保真度-效率困境”。这些结果验证了ProStream的有效性和优越性。
🎯 应用场景
ProStream可应用于各种需要处理长程对话历史的场景,例如智能客服、聊天机器人、虚拟助手等。通过高效的记忆管理和Ad-Hoc召回能力,ProStream可以提升对话系统的响应速度和准确性,改善用户体验。该研究对于构建更智能、更自然的对话系统具有重要意义。
📄 摘要(原文)
Real-world dialogue usually unfolds as an infinite stream. It thus requires bounded-state memory mechanisms to operate within an infinite horizon. However, existing read-then-think memory is fundamentally misaligned with this setting, as it cannot support ad-hoc memory recall while streams unfold. To explore this challenge, we introduce \textbf{STEM-Bench}, the first benchmark for \textbf{ST}reaming \textbf{E}valuation of \textbf{M}emory. It comprises over 14K QA pairs in dialogue streams that assess perception fidelity, temporal reasoning, and global awareness under infinite-horizon constraints. The preliminary analysis on STEM-Bench indicates a critical \textit{fidelity-efficiency dilemma}: retrieval-based methods use fragment context, while full-context models incur unbounded latency. To resolve this, we propose \textbf{ProStream}, a proactive hierarchical memory framework for streaming dialogues. It enables ad-hoc memory recall on demand by reasoning over continuous streams with multi-granular distillation. Moreover, it employs Adaptive Spatiotemporal Optimization to dynamically optimize retention based on expected utility. It enables a bounded knowledge state for lower inference latency without sacrificing reasoning fidelity. Experiments show that ProStream outperforms baselines in both accuracy and efficiency.