VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory
作者: Yuheng Lei, Zhixuan Liang, Hongyuan Zhang, Ping Luo
分类: cs.RO, cs.AI, cs.LG
发布日期: 2026-03-05
🔗 代码/项目: GITHUB
💡 一句话要点
VPWEM:利用工作记忆和情景记忆的非马尔可夫视觉运动策略,提升长时依赖任务性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉运动策略 非马尔可夫任务 长期记忆 工作记忆 情景记忆 Transformer 机器人操作
📋 核心要点
- 现有视觉运动策略难以处理需要长期记忆的非马尔可夫任务,扩大上下文窗口导致计算成本高昂和容易过拟合。
- VPWEM通过工作记忆存储短期信息,并利用Transformer压缩器将长期观测转化为情景记忆,实现高效的长期记忆利用。
- 实验表明,VPWEM在MIKASA和MoMaRT等基准测试中显著优于现有方法,验证了其在长时依赖任务中的有效性。
📝 摘要(中文)
模仿学习在机器人控制领域取得了显著进展,但现有视觉运动策略大多依赖单步观测或短时上下文,难以处理需要长期记忆的非马尔可夫任务。简单扩大上下文窗口会带来巨大的计算和内存成本,并容易过度拟合虚假相关性,导致在分布偏移下出现灾难性失败,并违反机器人系统的实时约束。为了解决这些问题,本文提出了VPWEM,一种配备工作记忆和情景记忆的非马尔可夫视觉运动策略。VPWEM保留一个滑动窗口作为短期工作记忆,并引入一个基于Transformer的上下文记忆压缩器,递归地将窗口外的观测转换为固定数量的情景记忆token。该压缩器利用过去摘要token的缓存上的自注意力以及历史观测的缓存上的交叉注意力,并与策略联合训练。VPWEM在扩散策略上实例化,以利用短期和episode范围的信息来生成动作,同时保持近乎恒定的内存和每步计算量。实验表明,VPWEM在MIKASA中对内存密集型操作任务的性能优于最先进的基线(包括扩散策略和视觉-语言-动作模型)20%以上,并在移动操作基准MoMaRT上平均提高了5%。
🔬 方法详解
问题定义:现有视觉运动策略在处理需要长期记忆的非马尔可夫任务时面临挑战。简单地扩大上下文窗口会导致计算和内存成本的显著增加,并且容易过度拟合训练数据中的虚假相关性,从而导致在实际机器人应用中常见的分布偏移情况下出现灾难性失败。此外,实时性也是机器人系统的重要约束,而扩大上下文窗口会增加每步的计算时间,难以满足实时性要求。
核心思路:VPWEM的核心思路是模拟人类利用短期工作记忆和长期情景记忆解决任务的方式。通过保留一个滑动窗口作为短期工作记忆,模型可以快速访问最近的观测信息。同时,引入一个上下文记忆压缩器,将超出滑动窗口范围的长期观测信息压缩成固定数量的情景记忆token,从而实现对长期信息的有效存储和利用。这种设计旨在平衡短期信息的快速访问和长期信息的有效存储,从而提高模型在非马尔可夫任务中的性能。
技术框架:VPWEM的整体架构包含三个主要模块:短期工作记忆、上下文记忆压缩器和策略网络。短期工作记忆是一个滑动窗口,用于存储最近的观测token。上下文记忆压缩器是一个基于Transformer的模型,用于将超出滑动窗口范围的长期观测信息压缩成情景记忆token。策略网络利用短期工作记忆和情景记忆token来生成动作。上下文记忆压缩器通过自注意力机制处理历史摘要token缓存,并通过交叉注意力机制处理历史观测缓存。整个框架采用端到端的方式进行训练。
关键创新:VPWEM的关键创新在于引入了上下文记忆压缩器,该压缩器能够将长期观测信息压缩成固定数量的情景记忆token,从而实现对长期信息的有效存储和利用。与直接扩大上下文窗口的方法相比,VPWEM的内存和计算成本几乎是恒定的,并且能够更好地泛化到新的环境。此外,VPWEM采用递归的方式更新情景记忆,使得模型能够逐步积累和更新对环境的理解。
关键设计:上下文记忆压缩器采用Transformer架构,包含自注意力和交叉注意力机制。自注意力机制用于处理历史摘要token缓存,交叉注意力机制用于处理历史观测缓存。压缩器的输出是固定数量的情景记忆token。策略网络可以采用各种不同的架构,例如扩散策略。损失函数包括模仿学习损失和正则化损失,用于约束情景记忆的表示。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VPWEM在MIKASA基准测试中,对内存密集型操作任务的性能优于最先进的基线(包括扩散策略和视觉-语言-动作模型)20%以上。在MoMaRT移动操作基准测试中,VPWEM平均提高了5%。这些结果表明,VPWEM能够有效地利用长期记忆来提高机器人在非马尔可夫任务中的性能。
🎯 应用场景
VPWEM具有广泛的应用前景,可应用于需要长期记忆的机器人操作任务,例如复杂装配、长期导航和持续学习等。该方法能够提高机器人在动态和非结构化环境中的适应性和鲁棒性,并有望推动机器人技术在工业自动化、医疗保健和家庭服务等领域的应用。
📄 摘要(原文)
Imitation learning from human demonstrations has achieved significant success in robotic control, yet most visuomotor policies still condition on single-step observations or short-context histories, making them struggle with non-Markovian tasks that require long-term memory. Simply enlarging the context window incurs substantial computational and memory costs and encourages overfitting to spurious correlations, leading to catastrophic failures under distribution shift and violating real-time constraints in robotic systems. By contrast, humans can compress important past experiences into long-term memories and exploit them to solve tasks throughout their lifetime. In this paper, we propose VPWEM, a non-Markovian visuomotor policy equipped with working and episodic memories. VPWEM retains a sliding window of recent observation tokens as short-term working memory, and introduces a Transformer-based contextual memory compressor that recursively converts out-of-window observations into a fixed number of episodic memory tokens. The compressor uses self-attention over a cache of past summary tokens and cross-attention over a cache of historical observations, and is trained jointly with the policy. We instantiate VPWEM on diffusion policies to exploit both short-term and episode-wide information for action generation with nearly constant memory and computation per step. Experiments demonstrate that VPWEM outperforms state-of-the-art baselines including diffusion policies and vision-language-action (VLA) models by more than 20% on the memory-intensive manipulation tasks in MIKASA and achieves an average 5% improvement on the mobile manipulation benchmark MoMaRT. Code is available at https://github.com/HarryLui98/code_vpwem.