Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

作者: Huihan Liu, Changyeon Kim, Bo Liu, Minghuan Liu, Yuke Zhu

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-03-04

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出预训练视觉-语言-动作模型以解决持续学习中的遗忘问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 持续学习 视觉-语言-动作 预训练模型 经验重放 知识保留

📋 核心要点

核心问题：持续学习中，模型在学习新技能时容易遗忘之前学到的技能，尤其是在小型模型中表现明显。
方法要点：本文提出利用预训练的视觉-语言-动作模型，通过简单的经验重放策略来减轻遗忘现象。
实验或效果：预训练的VLA模型在小规模重放数据下实现了零遗忘，显示出显著的知识保留能力。

📝 摘要（中文）

持续学习是机器人策略学习中的一个长期挑战，要求策略在不断学习新技能的同时不遗忘已学技能。尽管之前的研究主要集中在从头训练的小型行为克隆模型上，但现代大规模预训练的视觉-语言-动作（VLA）模型在这一领域的表现尚未得到充分探索。本文发现，预训练的VLA模型在遗忘方面表现出显著的抗性，简单的经验重放方法在VLA上效果良好，甚至在小规模重放数据下也能实现零遗忘。分析表明，预训练在下游持续学习性能中起着关键作用，大型预训练模型能够在小重放缓冲区的情况下减轻遗忘，同时保持强大的前向学习能力。

🔬 方法详解

问题定义：本文旨在解决持续学习中模型遗忘的问题，尤其是在机器人策略学习中，现有方法在小型行为克隆模型上表现不佳，容易导致知识遗忘。

核心思路：通过使用预训练的视觉-语言-动作模型，结合简单的经验重放策略，来增强模型在学习新任务时的知识保留能力，减少遗忘现象。

技术框架：整体架构包括预训练阶段和持续学习阶段。预训练阶段使用大规模数据集进行训练，持续学习阶段则通过经验重放机制来更新模型。

关键创新：本文的主要创新在于揭示了大规模预训练模型在持续学习中的优势，尤其是在小重放缓冲区条件下的零遗忘能力，这与传统小型模型的表现形成鲜明对比。

关键设计：在模型设计中，采用了适应性重放策略，设置了合理的重放缓冲区大小，并优化了损失函数以平衡新旧任务的学习。

🖼️ 关键图片

📊 实验亮点

实验结果表明，预训练的VLA模型在小规模重放数据下实现了零遗忘，显著优于从头训练的小型模型，展示了在持续学习中的强大知识保留能力和快速恢复能力。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动驾驶、智能助手等，能够帮助这些系统在不断变化的环境中快速适应新任务，同时保留之前的知识，提升其长期学习能力和适应性。

📄 摘要（原文）

Continual learning is a long-standing challenge in robot policy learning, where a policy must acquire new skills over time without catastrophically forgetting previously learned ones. While prior work has extensively studied continual learning in relatively small behavior cloning (BC) policy models trained from scratch, its behavior in modern large-scale pretrained Vision-Language-Action (VLA) models remains underexplored. In this work, we found that pretrained VLAs are remarkably resistant to forgetting compared with smaller policy models trained from scratch. Simple Experience Replay (ER) works surprisingly well on VLAs, sometimes achieving zero forgetting even with a small replay data size. Our analysis reveals that pretraining plays a critical role in downstream continual learning performance: large pretrained models mitigate forgetting with a small replay buffer size while maintaining strong forward learning capabilities. Furthermore, we found that VLAs can retain relevant knowledge from prior tasks despite performance degradation during learning new tasks. This knowledge retention enables rapid recovery of seemingly forgotten skills through finetuning. Together, these insights imply that large-scale pretraining fundamentally changes the dynamics of continual learning, enabling models to continually acquire new skills over time with simple replay. Code and more information can be found at https://ut-austin-rpl.github.io/continual-vla

Pretrained Vision-Language-Action Models are Surprisingly Resistant to Forgetting in Continual Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理