MoS-VLA: A Vision-Language-Action Model with One-Shot Skill Adaptation

📄 arXiv: 2510.16617v1 📥 PDF

作者: Ruihan Zhao, Tyler Ingebrand, Sandeep Chinchali, Ufuk Topcu

分类: cs.RO

发布日期: 2025-10-18


💡 一句话要点

MoS-VLA:基于技能组合的视觉-语言-动作模型,实现机器人单样本技能迁移

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人学习 单样本学习 技能组合 凸优化

📋 核心要点

  1. 现有VLA模型在面对新的环境、机器人形态或任务时,泛化能力不足,难以直接应用。
  2. MoS-VLA将机器人策略表示为技能基函数的线性组合,通过单样本演示快速适应新任务。
  3. 实验表明,MoS-VLA在未见数据集上降低了动作预测误差,并在真实机器人任务中取得成功。

📝 摘要(中文)

本文提出了一种名为混合技能视觉-语言-动作模型(MoS-VLA)的框架,旨在解决VLA模型在新的环境、机器人形态或任务中泛化能力不足的问题。MoS-VLA将机器人操作策略表示为一组学习到的基函数的线性组合,通过在Open X-Embodiment项目的数据集上联合学习这些基函数,构建结构化的技能空间。在测试阶段,适应新任务仅需一个专家演示。然后,通过一个轻量级的凸优化问题推断相应的技能表示,该优化问题最小化L1动作误差,无需梯度更新。这种无梯度适应方法开销极小,同时能够快速实例化新技能。实验结果表明,MoS-VLA在五个未见数据集中的动作预测误差均低于现有方法,并在预训练VLA模型完全失败的模拟和真实机器人任务中取得了成功。

🔬 方法详解

问题定义:现有视觉-语言-动作(VLA)模型在预训练后,难以适应新的机器人形态、环境或任务。主要痛点在于,针对新任务通常需要大量的重新训练或微调,计算成本高昂,且泛化性能难以保证。

核心思路:MoS-VLA的核心思路是将复杂的机器人操作策略分解为一组预先学习好的、通用的技能基函数。通过学习这些基函数的线性组合,模型可以快速适应新的任务,而无需进行耗时的梯度更新。这种方法类似于将复杂的函数分解为傅里叶基函数,从而简化了学习过程。

技术框架:MoS-VLA框架包含预训练和适应两个主要阶段。在预训练阶段,模型在Open X-Embodiment数据集上学习一组技能基函数,构建一个结构化的技能空间。在适应阶段,给定一个新任务的单样本演示,模型通过凸优化方法推断出该任务对应的技能表示,即技能基函数的线性组合系数。然后,模型利用这些系数生成相应的动作序列。

关键创新:MoS-VLA的关键创新在于其无梯度单样本适应方法。通过将策略表示为技能基函数的线性组合,模型可以将适应新任务的问题转化为一个凸优化问题,从而避免了耗时的梯度更新。这种方法大大提高了模型的适应速度和效率。

关键设计:MoS-VLA使用L1损失函数来最小化动作预测误差,这有助于提高模型的鲁棒性。凸优化问题采用现成的求解器进行求解,无需手动调整参数。技能基函数的数量是一个重要的超参数,需要根据具体任务进行调整。网络结构方面,可以使用Transformer等常见的序列模型来学习技能基函数。

📊 实验亮点

MoS-VLA在五个未见数据集上实现了更低的动作预测误差,证明了其优越的泛化能力。在模拟和真实机器人任务中,MoS-VLA成功完成了预训练VLA模型无法完成的任务,验证了其在实际应用中的有效性。单样本适应能力大大降低了模型部署的难度和成本。

🎯 应用场景

MoS-VLA具有广泛的应用前景,例如在工业自动化、家庭服务机器人、医疗机器人等领域。它可以帮助机器人快速适应新的任务和环境,提高机器人的智能化水平和工作效率。未来,该技术有望应用于更复杂的机器人系统,例如多机器人协作和自主导航。

📄 摘要(原文)

Vision-Language-Action (VLA) models trained on large robot datasets promise general-purpose, robust control across diverse domains and embodiments. However, existing approaches often fail out-of-the-box when deployed in novel environments, embodiments, or tasks. We introduce Mixture of Skills VLA (MoS-VLA), a framework that represents robot manipulation policies as linear combinations of a finite set of learned basis functions. During pretraining, MoS-VLA jointly learns these basis functions across datasets from the Open X-Embodiment project, producing a structured skill space. At test time, adapting to a new task requires only a single expert demonstration. The corresponding skill representation is then inferred via a lightweight convex optimization problem that minimizes the L1 action error, without requiring gradient updates. This gradient-free adaptation incurs minimal overhead while enabling rapid instantiation of new skills. Empirically, MoS-VLA achieves lower action-prediction error on five out of five unseen datasets and succeeds in both simulation and real-robot tasks where a pretrained VLA model fails outright. Project page: mos-vla.github.io/