MoS-VLA: A Vision-Language-Action Model with One-Shot Skill Adaptation

作者: Ruihan Zhao, Tyler Ingebrand, Sandeep Chinchali, Ufuk Topcu

分类: cs.RO

发布日期: 2025-10-18

💡 一句话要点

MoS-VLA：基于技能组合的视觉-语言-动作模型，实现机器人单样本技能迁移

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人学习 单样本学习 技能组合 凸优化

📋 核心要点

现有VLA模型在面对新的环境、机器人形态或任务时，泛化能力不足，难以直接应用。
MoS-VLA将机器人策略表示为技能基函数的线性组合，通过单样本演示快速适应新任务。
实验表明，MoS-VLA在未见数据集上降低了动作预测误差，并在真实机器人任务中取得成功。

📝 摘要（中文）

本文提出了一种名为混合技能视觉-语言-动作模型（MoS-VLA）的框架，旨在解决VLA模型在新的环境、机器人形态或任务中泛化能力不足的问题。MoS-VLA将机器人操作策略表示为一组学习到的基函数的线性组合，通过在Open X-Embodiment项目的数据集上联合学习这些基函数，构建结构化的技能空间。在测试阶段，适应新任务仅需一个专家演示。然后，通过一个轻量级的凸优化问题推断相应的技能表示，该优化问题最小化L1动作误差，无需梯度更新。这种无梯度适应方法开销极小，同时能够快速实例化新技能。实验结果表明，MoS-VLA在五个未见数据集中的动作预测误差均低于现有方法，并在预训练VLA模型完全失败的模拟和真实机器人任务中取得了成功。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在预训练后，难以适应新的机器人形态、环境或任务。主要痛点在于，针对新任务通常需要大量的重新训练或微调，计算成本高昂，且泛化性能难以保证。

核心思路：MoS-VLA的核心思路是将复杂的机器人操作策略分解为一组预先学习好的、通用的技能基函数。通过学习这些基函数的线性组合，模型可以快速适应新的任务，而无需进行耗时的梯度更新。这种方法类似于将复杂的函数分解为傅里叶基函数，从而简化了学习过程。

技术框架：MoS-VLA框架包含预训练和适应两个主要阶段。在预训练阶段，模型在Open X-Embodiment数据集上学习一组技能基函数，构建一个结构化的技能空间。在适应阶段，给定一个新任务的单样本演示，模型通过凸优化方法推断出该任务对应的技能表示，即技能基函数的线性组合系数。然后，模型利用这些系数生成相应的动作序列。

关键创新：MoS-VLA的关键创新在于其无梯度单样本适应方法。通过将策略表示为技能基函数的线性组合，模型可以将适应新任务的问题转化为一个凸优化问题，从而避免了耗时的梯度更新。这种方法大大提高了模型的适应速度和效率。

关键设计：MoS-VLA使用L1损失函数来最小化动作预测误差，这有助于提高模型的鲁棒性。凸优化问题采用现成的求解器进行求解，无需手动调整参数。技能基函数的数量是一个重要的超参数，需要根据具体任务进行调整。网络结构方面，可以使用Transformer等常见的序列模型来学习技能基函数。

📊 实验亮点

MoS-VLA在五个未见数据集上实现了更低的动作预测误差，证明了其优越的泛化能力。在模拟和真实机器人任务中，MoS-VLA成功完成了预训练VLA模型无法完成的任务，验证了其在实际应用中的有效性。单样本适应能力大大降低了模型部署的难度和成本。

🎯 应用场景

MoS-VLA具有广泛的应用前景，例如在工业自动化、家庭服务机器人、医疗机器人等领域。它可以帮助机器人快速适应新的任务和环境，提高机器人的智能化水平和工作效率。未来，该技术有望应用于更复杂的机器人系统，例如多机器人协作和自主导航。

📄 摘要（原文）

Vision-Language-Action (VLA) models trained on large robot datasets promise general-purpose, robust control across diverse domains and embodiments. However, existing approaches often fail out-of-the-box when deployed in novel environments, embodiments, or tasks. We introduce Mixture of Skills VLA (MoS-VLA), a framework that represents robot manipulation policies as linear combinations of a finite set of learned basis functions. During pretraining, MoS-VLA jointly learns these basis functions across datasets from the Open X-Embodiment project, producing a structured skill space. At test time, adapting to a new task requires only a single expert demonstration. The corresponding skill representation is then inferred via a lightweight convex optimization problem that minimizes the L1 action error, without requiring gradient updates. This gradient-free adaptation incurs minimal overhead while enabling rapid instantiation of new skills. Empirically, MoS-VLA achieves lower action-prediction error on five out of five unseen datasets and succeeds in both simulation and real-robot tasks where a pretrained VLA model fails outright. Project page: mos-vla.github.io/

MoS-VLA: A Vision-Language-Action Model with One-Shot Skill Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册