Continually Evolving Skill Knowledge in Vision Language Action Model

作者: Yuxuan Wu, Guangming Wang, Zhiheng Yang, Maoqing Yao, Brian Sheil, Hesheng Wang

分类: cs.RO, cs.AI

发布日期: 2025-11-22 (更新: 2025-11-25)

💡 一句话要点

Stellar VLA：面向视觉-语言-动作模型的知识驱动持续学习框架

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 持续学习 视觉-语言-动作模型 机器人学习 知识驱动 自监督学习

📋 核心要点

现有VLA模型依赖于特定任务的微调，缺乏在开放环境中持续学习的能力，且现有持续学习方法计算资源需求大。
Stellar VLA通过联合学习任务潜在表示和知识空间，实现自监督知识演化，并采用知识引导的专家路由实现任务特化。
在LIBERO基准和真实世界任务上的实验表明，Stellar VLA相对于基线，最终成功率平均提高了50个百分点以上。

📝 摘要（中文）

为了在开放环境中发展通用机器人智能，需要持续的技能学习。近期的视觉-语言-动作(VLA)模型利用大规模预训练数据来支持各种操作任务，但它们仍然严重依赖于特定任务的微调，这表明它们缺乏持续学习能力。现有的持续学习方法在扩展到VLA模型时也需要大量的资源。我们提出了Stellar VLA，一个知识驱动的持续学习框架，包含两个变体：T-Stellar，建模以任务为中心的知识空间；TS-Stellar，捕捉分层任务-技能结构。Stellar VLA通过联合学习任务潜在表示和知识空间来实现自监督知识演化，从而减少了对标注的需求。知识引导的专家路由提供了任务专业化，而无需额外的网络参数，从而降低了训练开销。在LIBERO基准和真实世界任务上的实验表明，相对于基线，最终成功率平均提高了50个百分点以上。TS-Stellar在复杂的动作推理方面表现更出色，深入的分析验证了有效的知识保留和发现。我们的代码即将发布。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在开放环境中进行持续技能学习时面临挑战。它们过度依赖于特定任务的微调，缺乏真正的持续学习能力。此外，将现有的持续学习方法扩展到大型VLA模型通常需要大量的计算资源，这限制了它们在实际机器人应用中的可行性。

核心思路：Stellar VLA的核心思想是利用知识驱动的方法来实现VLA模型的持续学习。通过构建一个可演化的知识空间，模型能够自监督地学习和保留先前任务的知识，并在新任务中有效地利用这些知识。这种方法减少了对大量标注数据的依赖，并降低了训练开销。

技术框架：Stellar VLA框架包含两个主要变体：T-Stellar和TS-Stellar。T-Stellar建模以任务为中心的知识空间，而TS-Stellar则进一步捕捉分层任务-技能结构。该框架通过联合学习任务潜在表示和知识空间来实现自监督知识演化。知识引导的专家路由机制用于实现任务特化，而无需引入额外的网络参数。整体流程包括：输入视觉和语言信息，编码器提取特征，任务潜在表示模块学习任务表示，知识空间模块存储和演化知识，专家路由模块根据任务选择合适的专家，最后输出动作。

关键创新：Stellar VLA的关键创新在于其知识驱动的持续学习方法。与传统的微调方法相比，Stellar VLA能够更好地保留和利用先前任务的知识。与现有的持续学习方法相比，Stellar VLA通过自监督知识演化和知识引导的专家路由，降低了对标注数据的需求和训练开销。TS-Stellar通过引入分层任务-技能结构，进一步提高了模型在复杂动作推理方面的能力。

关键设计：Stellar VLA的关键设计包括：1) 任务潜在表示模块，用于学习任务的潜在表示；2) 知识空间模块，用于存储和演化知识；3) 知识引导的专家路由模块，用于根据任务选择合适的专家。损失函数包括任务分类损失、知识空间正则化损失和专家路由损失。具体的网络结构和参数设置取决于具体的VLA模型和任务。

📊 实验亮点

实验结果表明，Stellar VLA在LIBERO基准和真实世界任务上均取得了显著的性能提升。相对于基线方法，Stellar VLA的最终成功率平均提高了50个百分点以上。TS-Stellar在复杂的动作推理方面表现更出色。深入的分析验证了Stellar VLA能够有效地保留和发现知识，并能够适应新的任务。

🎯 应用场景

Stellar VLA具有广泛的应用前景，包括家庭服务机器人、工业自动化、医疗辅助机器人等。它可以使机器人在不断变化的环境中持续学习新的技能，从而提高机器人的通用性和适应性。该研究的实际价值在于降低了机器人持续学习的成本，并提高了机器人的性能。未来，该研究可以进一步扩展到更复杂的任务和环境，并与其他机器人技术相结合，从而实现更智能、更自主的机器人系统。

📄 摘要（原文）

Developing general robot intelligence in open environments requires continual skill learning. Recent Vision-Language-Action (VLA) models leverage massive pretraining data to support diverse manipulation tasks, but they still depend heavily on task-specific fine-tuning, revealing a lack of continual learning capability. Existing continual learning methods are also resource-intensive to scale to VLA models. We propose Stellar VLA, a knowledge-driven continual learning framework with two variants: T-Stellar, modeling task-centric knowledge space, and TS-Stellar, capturing hierarchical task-skill structure. Stellar VLA enables self-supervised knowledge evolution through joint learning of task latent representation and the knowledge space, reducing annotation needs. Knowledge-guided expert routing provide task specialization without extra network parameters, lowering training overhead. Experiments on the LIBERO benchmark and real-world tasks show over 50 percentage average improvement in final success rates relative to baselines. TS-Stellar further excels in complex action inference, and in-depth analyses verify effective knowledge retention and discovery. Our code will be released soon.

Continually Evolving Skill Knowledge in Vision Language Action Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册