MemER: Scaling Up Memory for Robot Control via Experience Retrieval

📄 arXiv: 2510.20328v1 📥 PDF

作者: Ajay Sridhar, Jennifer Pan, Satvik Sharma, Chelsea Finn

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-10-23

备注: Project page: https://jen-pan.github.io/memer/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

MemER:通过经验检索扩展机器人控制的记忆能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人控制 经验检索 长期记忆 分层策略 视觉语言动作模型

📋 核心要点

  1. 现有机器人策略缺乏有效利用长期记忆的能力,限制了其在复杂任务中的表现。
  2. MemER提出一种分层策略框架,通过检索和跟踪关键帧来高效利用历史经验。
  3. 实验表明,MemER在长时程机器人操作任务中显著优于现有方法,验证了其有效性。

📝 摘要(中文)

人类通常依赖记忆来执行任务,但大多数机器人策略缺乏这种能力。本文旨在赋予机器人策略相同的能力。直接以长观测历史为条件进行控制在计算上代价高昂,并且在协变量偏移下容易崩溃;而对历史记录进行不加选择的二次抽样会导致不相关或冗余的信息。因此,我们提出了一个分层策略框架,其中高层策略被训练来选择和跟踪先前经验中的相关关键帧。高层策略使用选定的关键帧和最近的帧来生成文本指令,供低层策略执行。这种设计与现有的视觉-语言-动作(VLA)模型兼容,并使系统能够有效地推理长期依赖关系。在我们的实验中,我们分别微调了Qwen2.5-VL-7B-Instruct和$π_{0.5}$作为高层和低层策略,使用带有少量语言注释的演示数据。我们的方法MemER在三个需要数分钟记忆的真实世界长时程机器人操作任务中优于现有方法。

🔬 方法详解

问题定义:现有机器人策略在处理需要长期记忆的任务时面临挑战。简单地使用所有历史观测数据计算成本高昂,且容易受到协变量偏移的影响。而随机抽样历史数据则可能引入不相关或冗余信息,导致性能下降。因此,如何高效地利用历史经验是机器人控制中的一个关键问题。

核心思路:MemER的核心思路是模仿人类的记忆机制,通过选择性地检索和利用关键帧来减少计算负担,并提高策略的鲁棒性。该方法通过训练一个高层策略来选择与当前任务相关的历史关键帧,然后利用这些关键帧和当前观测来生成控制指令。

技术框架:MemER采用分层策略框架,包含一个高层策略和一个低层策略。高层策略负责从历史经验中选择关键帧,并结合当前观测生成文本指令。低层策略则根据高层策略生成的文本指令执行具体的动作。整个框架可以与现有的视觉-语言-动作(VLA)模型相结合。

关键创新:MemER的关键创新在于其关键帧选择机制。高层策略通过学习选择与当前任务最相关的历史关键帧,从而避免了对所有历史数据的处理,提高了效率和鲁棒性。这种选择性记忆机制使得机器人能够有效地推理长期依赖关系。

关键设计:MemER使用Qwen2.5-VL-7B-Instruct作为高层策略,负责关键帧选择和文本指令生成。低层策略使用$π_{0.5}$,负责根据文本指令执行动作。训练过程中,使用带有少量语言注释的演示数据进行微调。具体的损失函数和网络结构细节在论文中未详细描述,属于未知信息。

📊 实验亮点

MemER在三个真实世界的长时程机器人操作任务中取得了显著的性能提升。实验结果表明,MemER能够有效地利用历史经验,并在需要数分钟记忆的任务中优于现有方法。具体的性能数据和对比基线在论文中未详细给出,属于未知信息。

🎯 应用场景

MemER具有广泛的应用前景,可以应用于需要长期规划和记忆的机器人任务中,例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。通过赋予机器人更强的记忆能力,可以使其更好地理解和执行复杂的任务,提高其智能化水平和服务质量。

📄 摘要(原文)

Humans routinely rely on memory to perform tasks, yet most robot policies lack this capability; our goal is to endow robot policies with the same ability. Naively conditioning on long observation histories is computationally expensive and brittle under covariate shift, while indiscriminate subsampling of history leads to irrelevant or redundant information. We propose a hierarchical policy framework, where the high-level policy is trained to select and track previous relevant keyframes from its experience. The high-level policy uses selected keyframes and the most recent frames when generating text instructions for a low-level policy to execute. This design is compatible with existing vision-language-action (VLA) models and enables the system to efficiently reason over long-horizon dependencies. In our experiments, we finetune Qwen2.5-VL-7B-Instruct and $π_{0.5}$ as the high-level and low-level policies respectively, using demonstrations supplemented with minimal language annotations. Our approach, MemER, outperforms prior methods on three real-world long-horizon robotic manipulation tasks that require minutes of memory. Videos and code can be found at https://jen-pan.github.io/memer/.