SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse

作者: Xuanran Zhai, Zekai Huang, Longyan Wu, Qianyou Zhao, Qiaojun Yu, Jieji Ren, Ce Hao, Harold Soh

分类: cs.RO

发布日期: 2026-03-04

备注: 16 pages

💡 一句话要点

SkillVLA：通过技能复用解决双臂操作中的组合多样性问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 双臂操作 视觉-语言-动作 技能复用 组合多样性 机器人学习

📋 核心要点

现有双臂VLA模型难以处理单臂行为组合带来的多样性，缺乏技能复用能力，限制了模型的可扩展性。
SkillVLA框架通过解耦双臂技能，支持单臂技能的灵活重组，从而实现技能复用，提升泛化能力。
实验结果表明，SkillVLA在技能组合任务中表现出色，成功率显著提升，并在协作和长时程任务中表现优异。

📝 摘要（中文）

视觉-语言-动作(VLA)模型在双臂操作中展现出强大的潜力，能够实现复杂的行为并泛化到未见过的环境中。然而，主流的双臂VLA公式在很大程度上忽略了组合多样性的关键挑战。单臂行为的不同配对会产生性质上不同的任务行为，但现有模型没有明确考虑这种结构。我们认为，有效的双臂VLA应该支持技能复用——即在新的左右配对中重组先前学习的单臂技能的能力——从而避免单独学习每种可能的组合。当前的VLA设计将技能跨手臂纠缠在一起，阻止了这种重组并限制了可扩展性。为了解决这个限制，我们提出了SkillVLA，一个专门为在双臂操作中实现技能复用而设计的框架。大量的实验表明，SkillVLA显著提高了技能组合能力，将整体成功率从0%提高到51%，并在协作和长时程任务上取得了优异的性能。

🔬 方法详解

问题定义：现有双臂操作的视觉-语言-动作(VLA)模型，在处理组合多样性问题时存在局限性。具体来说，不同的单臂动作组合会产生截然不同的双臂协作行为，而现有模型通常将双臂技能耦合在一起，无法有效复用已学习的单臂技能，导致需要为每种组合单独学习，效率低下且泛化能力差。

核心思路：SkillVLA的核心思路是将双臂操作解耦为独立的单臂技能，并允许模型在不同的左右臂之间灵活地重组这些技能。通过这种方式，模型可以利用已学习的单臂技能来处理新的双臂协作任务，而无需重新学习所有可能的组合。这种技能复用机制显著提高了模型的泛化能力和学习效率。

技术框架：SkillVLA框架主要包含以下几个模块：1) 视觉编码器：用于提取场景的视觉特征；2) 语言编码器：用于理解任务指令；3) 单臂技能编码器：用于编码每个手臂的独立技能；4) 技能组合模块：用于将左右臂的技能进行组合，生成双臂的动作序列；5) 动作执行器：用于控制机械臂执行动作。整体流程是，首先通过视觉和语言编码器提取特征，然后利用单臂技能编码器生成左右臂的技能表示，接着通过技能组合模块将这些技能组合起来，最后通过动作执行器执行动作。

关键创新：SkillVLA的关键创新在于其解耦的技能表示和技能复用机制。与现有方法将双臂技能耦合在一起不同，SkillVLA将双臂操作分解为独立的单臂技能，并允许模型在不同的左右臂之间灵活地重组这些技能。这种解耦的表示方式使得模型可以更好地利用已学习的单臂技能，从而提高泛化能力和学习效率。

关键设计：SkillVLA的关键设计包括：1) 使用Transformer网络作为单臂技能编码器，以捕捉技能之间的依赖关系；2) 设计了一种新的技能组合模块，该模块可以根据任务指令动态地调整左右臂技能的组合方式；3) 使用强化学习来训练模型，并设计了一种奖励函数，鼓励模型学习可复用的单臂技能。

🖼️ 关键图片

📊 实验亮点

SkillVLA在技能组合任务中取得了显著的性能提升，将整体成功率从0%提高到51%。此外，在协作和长时程任务中，SkillVLA也表现出优异的性能，证明了其在复杂双臂操作任务中的有效性。这些实验结果表明，SkillVLA的技能复用机制能够显著提高模型的泛化能力和学习效率。

🎯 应用场景

SkillVLA在机器人自动化领域具有广泛的应用前景，例如在智能制造中，可以用于双臂协作装配、物料搬运等任务。在家庭服务机器人领域，可以用于双臂协同完成复杂的家务，如烹饪、清洁等。此外，该技术还可以应用于医疗机器人领域，辅助医生进行手术操作。

📄 摘要（原文）

Recent progress in vision-language-action (VLA) models has demonstrated strong potential for dual-arm manipulation, enabling complex behaviors and generalization to unseen environments. However, mainstream bimanual VLA formulations largely overlook the critical challenge of combinatorial diversity. Different pairings of single-arm behaviors can induce qualitatively distinct task behaviors, yet existing models do not explicitly account for this structure. We argue that effective bimanual VLAs should support skill reuse - the ability to recombine previously learned single-arm skills across novel left-right pairings - thereby avoiding the need to separately learn every possible combination. Current VLA designs entangle skills across arms, preventing such recomposition and limiting scalability. To address this limitation, we propose SkillVLA, a framework explicitly designed to enable skill reuse in dual-arm manipulation. Extensive experiments demonstrate that SkillVLA substantially improves skill composition, increasing overall success rate from 0% to 51%, and achieves strong performance on cooperative and long-horizon tasks.

SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理