Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues

作者: Bingbing Wang, Jing Li, Ruifeng Xu

分类: cs.AI

发布日期: 2026-03-05

💡 一句话要点

提出ProStream，解决无限对话流中Ad-Hoc记忆召回的效率与准确性难题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation)

关键词: 对话系统 记忆网络 流式处理 分层记忆 Ad-Hoc召回

📋 核心要点

现有对话记忆模型难以在无限对话流中进行Ad-Hoc记忆召回，面临保真度和效率的权衡。
ProStream通过主动分层记忆框架，利用多粒度蒸馏和自适应时空优化，实现高效准确的记忆。
实验表明，ProStream在STEM-Bench基准测试中，准确性和效率均优于现有基线方法。

📝 摘要（中文）

本文提出了一种针对无限对话流中受限状态记忆机制的挑战，现有方法无法在流展开时支持Ad-Hoc记忆召回。为此，作者构建了首个用于流式记忆评估的基准测试STEM-Bench，包含超过14K的QA对，用于评估无限视野下的感知保真度、时间推理和全局感知。初步分析表明存在“保真度-效率困境”。为解决此问题，作者提出了ProStream，一种用于流式对话的主动分层记忆框架，通过多粒度蒸馏对连续流进行推理，从而按需实现Ad-Hoc记忆召回。此外，它采用自适应时空优化，根据预期效用动态优化保留，从而在不牺牲推理保真度的情况下，降低推理延迟。实验表明，ProStream在准确性和效率方面均优于基线。

🔬 方法详解

问题定义：现有对话系统在处理无限对话流时，需要维护一个有界状态的记忆机制。然而，现有的“先读后想”的记忆模型无法支持在对话流展开过程中进行Ad-Hoc的记忆召回。检索式方法虽然高效，但只能使用片段化的上下文，而全上下文模型则会导致无限的延迟，无法满足实际应用需求。因此，如何在保证记忆保真度的前提下，提高记忆效率，是本文要解决的核心问题。

核心思路：ProStream的核心思路是构建一个主动的分层记忆框架，通过多粒度蒸馏来处理连续的对话流，从而实现按需的Ad-Hoc记忆召回。通过分层结构，可以对不同粒度的信息进行存储和检索，从而在效率和准确性之间取得平衡。主动性体现在自适应时空优化上，能够根据预期效用动态地调整记忆的保留策略。

技术框架：ProStream框架主要包含以下几个模块：1) 对话流输入模块：接收连续的对话流作为输入。2) 分层记忆模块：构建一个分层的记忆结构，包含不同粒度的信息表示。3) 多粒度蒸馏模块：对对话流进行多粒度的信息提取和蒸馏，将关键信息存储到记忆中。4) Ad-Hoc召回模块：根据用户的查询，从分层记忆中检索相关信息。5) 自适应时空优化模块：根据预期效用，动态地调整记忆的保留策略。

关键创新：ProStream的关键创新在于其主动的分层记忆框架和自适应时空优化策略。与传统的“先读后想”的记忆模型不同，ProStream能够主动地对对话流进行处理和记忆，从而实现高效的Ad-Hoc召回。自适应时空优化策略能够根据实际需求动态地调整记忆的保留策略，从而在效率和准确性之间取得最佳平衡。

关键设计：ProStream中的关键设计包括：1) 分层记忆结构：具体的分层方式（例如，基于时间窗口或语义相似度）以及每一层存储的信息粒度。2) 多粒度蒸馏方法：如何从对话流中提取不同粒度的信息，以及如何将这些信息压缩和存储到记忆中。3) 自适应时空优化策略：如何定义预期效用，以及如何根据预期效用动态地调整记忆的保留策略。具体的损失函数和网络结构的选择会影响最终的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ProStream在STEM-Bench基准测试中，在准确性和效率方面均优于现有的基线方法。具体而言，ProStream在保持较高准确率的同时，显著降低了推理延迟，有效解决了“保真度-效率困境”。这些结果验证了ProStream的有效性和优越性。

🎯 应用场景

ProStream可应用于各种需要处理长程对话历史的场景，例如智能客服、聊天机器人、虚拟助手等。通过高效的记忆管理和Ad-Hoc召回能力，ProStream可以提升对话系统的响应速度和准确性，改善用户体验。该研究对于构建更智能、更自然的对话系统具有重要意义。

📄 摘要（原文）

Real-world dialogue usually unfolds as an infinite stream. It thus requires bounded-state memory mechanisms to operate within an infinite horizon. However, existing read-then-think memory is fundamentally misaligned with this setting, as it cannot support ad-hoc memory recall while streams unfold. To explore this challenge, we introduce \textbf{STEM-Bench}, the first benchmark for \textbf{ST}reaming \textbf{E}valuation of \textbf{M}emory. It comprises over 14K QA pairs in dialogue streams that assess perception fidelity, temporal reasoning, and global awareness under infinite-horizon constraints. The preliminary analysis on STEM-Bench indicates a critical \textit{fidelity-efficiency dilemma}: retrieval-based methods use fragment context, while full-context models incur unbounded latency. To resolve this, we propose \textbf{ProStream}, a proactive hierarchical memory framework for streaming dialogues. It enables ad-hoc memory recall on demand by reasoning over continuous streams with multi-granular distillation. Moreover, it employs Adaptive Spatiotemporal Optimization to dynamically optimize retention based on expected utility. It enables a bounded knowledge state for lower inference latency without sacrificing reasoning fidelity. Experiments show that ProStream outperforms baselines in both accuracy and efficiency.

Bounded State in an Infinite Horizon: Proactive Hierarchical Memory for Ad-Hoc Recall over Streaming Dialogues

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理