EchoVLA: Robotic Vision-Language-Action Model with Synergistic Declarative Memory for Mobile Manipulation

📄 arXiv: 2511.18112v1 📥 PDF

作者: Min Lin, Xiwen Liang, Bingqian Lin, Liu Jingzhi, Zijian Jiao, Kehan Li, Yuhan Ma, Yuecheng Liu, Shen Zhao, Yuzheng Zhuang, Xiaodan Liang

分类: cs.RO

发布日期: 2025-11-22


💡 一句话要点

EchoVLA:面向移动操作的协同声明式记忆机器人视觉-语言-动作模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)

关键词: 视觉-语言-动作模型 移动操作 长时程任务 声明式记忆 机器人 扩散策略 多模态学习

📋 核心要点

  1. 现有VLA模型在长时程移动操作中面临挑战,缺乏在动态环境中协调导航和操作所需的记忆与推理能力。
  2. EchoVLA通过引入协同声明式记忆,包括场景记忆和情节记忆,增强了模型对环境和任务历史的理解和利用。
  3. MoMani基准测试和实验结果表明,EchoVLA在长时程移动操作任务中显著提升了性能,验证了其有效性。

📝 摘要(中文)

现有的视觉-语言-动作(VLA)模型主要局限于短时程、桌面操作,缺乏长时程移动操作所需的记忆和推理能力,而长时程移动操作需要智能体在不断变化的空间环境中协调导航和操作。本文提出了EchoVLA,一种用于长时程移动操作的、具有记忆感知能力的VLA模型。EchoVLA受到人脑的启发,融合了协同声明式记忆,包含维护空间语义地图的场景记忆和存储具有多模态上下文特征的任务级经验的情节记忆。在训练和推理过程中,这两个记忆库基于当前的观察、任务历史和指令进行独立存储、更新和检索,并且它们检索到的表示通过粗粒度和细粒度的注意力机制融合,以指导移动机械臂扩散策略。为了支持大规模训练和评估,本文还引入了MoMani,一个自动化的基准测试,通过多模态大语言模型(MLLM)引导的规划和反馈驱动的细化,并辅以真实机器人演示,生成专家级的长时程轨迹。在模拟和真实环境中的实验表明,EchoVLA提高了长时程性能,在操作/导航任务上达到了0.52的成功率(SR),在移动操作任务上达到了0.31的成功率,分别超过了$π_{0.5}$基线+0.08和+0.11。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在长时程移动操作任务中表现不佳,主要原因是它们缺乏足够的记忆能力和推理能力,无法有效地处理复杂、动态的环境变化,以及长时间跨度的任务依赖关系。现有方法通常只关注短时程的桌面操作,忽略了移动操作中导航和操作的协同,以及环境上下文信息的重要性。

核心思路:EchoVLA的核心思路是模仿人脑的记忆机制,引入协同声明式记忆,包括场景记忆和情节记忆。场景记忆用于维护环境的空间语义地图,情节记忆用于存储任务级别的经验,并结合多模态上下文特征。通过这两个记忆模块的协同工作,模型能够更好地理解当前环境,回忆历史经验,从而做出更合理的决策。

技术框架:EchoVLA的整体框架包括视觉感知模块、语言理解模块、场景记忆模块、情节记忆模块、策略生成模块。视觉感知模块负责从图像中提取视觉特征,语言理解模块负责解析指令,场景记忆模块存储和更新环境的空间语义地图,情节记忆模块存储和更新任务级别的经验,策略生成模块根据视觉特征、语言指令以及从场景记忆和情节记忆中检索到的信息,生成移动机械臂的动作策略。模型采用扩散策略,通过学习噪声到动作的映射,生成平滑自然的动作序列。

关键创新:EchoVLA的关键创新在于引入了协同声明式记忆,并设计了粗粒度和细粒度的注意力机制,用于融合从场景记忆和情节记忆中检索到的信息。这种协同记忆机制使得模型能够更好地理解环境上下文,回忆历史经验,从而做出更合理的决策。此外,MoMani基准测试的提出也为长时程移动操作任务的研究提供了新的评估平台。

关键设计:场景记忆采用空间语义地图的形式,使用SLAM技术构建和更新。情节记忆使用Transformer结构存储任务级别的经验,并结合多模态上下文特征,如视觉特征、语言指令和动作序列。粗粒度注意力机制用于选择重要的记忆片段,细粒度注意力机制用于融合不同记忆片段的信息。扩散策略采用U-Net结构,学习噪声到动作的映射。损失函数包括策略损失、记忆损失和注意力损失。

📊 实验亮点

EchoVLA在模拟和真实环境中的实验结果表明,其在长时程移动操作任务中取得了显著的性能提升。在操作/导航任务上,EchoVLA达到了0.52的成功率(SR),在移动操作任务上达到了0.31的成功率,分别超过了$π_{0.5}$基线+0.08和+0.11。这些结果表明,EchoVLA的协同声明式记忆机制能够有效地提高机器人的记忆能力和推理能力。

🎯 应用场景

EchoVLA具有广泛的应用前景,例如在家庭服务机器人、仓储物流机器人、医疗辅助机器人等领域。它可以帮助机器人在复杂环境中完成长时程的任务,例如导航到指定地点、拾取物品、放置物品等。通过不断学习和积累经验,EchoVLA可以适应不同的环境和任务,提高机器人的自主性和智能化水平。

📄 摘要(原文)

Recent progress in Vision-Language-Action (VLA) models has enabled embodied agents to interpret multimodal instructions and perform complex tasks. However, existing VLAs are mostly confined to short-horizon, table-top manipulation, lacking the memory and reasoning capability required for long-horizon mobile manipulation, where agents must coordinate navigation and manipulation under changing spatial contexts. In this work, we present EchoVLA, a memory-aware VLA model for long-horizon mobile manipulation. EchoVLA incorporates a synergistic declarative memory inspired by the human brain, consisting of a scene memory that maintains a collection of spatial-semantic maps and an episodic memory that stores task-level experiences with multimodal contextual features. During both training and inference, the two memories are individually stored, updated, and retrieved based on current observations, task history, and instructions, and their retrieved representations are fused via coarse- and fine-grained attention to guide mobile-arm diffusion policies. To support large-scale training and evaluation, we further introduce MoMani, an automated benchmark that generates expert-level long-horizon trajectories through multimodal large language model (MLLM)-guided planning and feedback-driven refinement, supplemented with real-robot demonstrations. Experiments in simulated and real-world settings show that EchoVLA improves long-horizon performance, reaching 0.52 SR on manipulation/navigation and 0.31 on mobile manipulation, exceeding $π_{0.5}$ by +0.08 and +0.11.