SkillVLA: Tackling Combinatorial Diversity in Dual-Arm Manipulation via Skill Reuse
作者: Xuanran Zhai, Zekai Huang, Longyan Wu, Qianyou Zhao, Qiaojun Yu, Jieji Ren, Ce Hao, Harold Soh
分类: cs.RO
发布日期: 2026-03-04
备注: 16 pages
💡 一句话要点
SkillVLA:通过技能复用解决双臂操作中的组合多样性问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 双臂操作 视觉-语言-动作 技能复用 组合多样性 机器人学习
📋 核心要点
- 现有双臂VLA模型难以处理单臂行为组合带来的多样性,缺乏技能复用能力,限制了模型的可扩展性。
- SkillVLA框架通过解耦双臂技能,支持单臂技能的灵活重组,从而实现技能复用,提升泛化能力。
- 实验结果表明,SkillVLA在技能组合任务中表现出色,成功率显著提升,并在协作和长时程任务中表现优异。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在双臂操作中展现出强大的潜力,能够实现复杂的行为并泛化到未见过的环境中。然而,主流的双臂VLA公式在很大程度上忽略了组合多样性的关键挑战。单臂行为的不同配对会产生性质上不同的任务行为,但现有模型没有明确考虑这种结构。我们认为,有效的双臂VLA应该支持技能复用——即在新的左右配对中重组先前学习的单臂技能的能力——从而避免单独学习每种可能的组合。当前的VLA设计将技能跨手臂纠缠在一起,阻止了这种重组并限制了可扩展性。为了解决这个限制,我们提出了SkillVLA,一个专门为在双臂操作中实现技能复用而设计的框架。大量的实验表明,SkillVLA显著提高了技能组合能力,将整体成功率从0%提高到51%,并在协作和长时程任务上取得了优异的性能。
🔬 方法详解
问题定义:现有双臂操作的视觉-语言-动作(VLA)模型,在处理组合多样性问题时存在局限性。具体来说,不同的单臂动作组合会产生截然不同的双臂协作行为,而现有模型通常将双臂技能耦合在一起,无法有效复用已学习的单臂技能,导致需要为每种组合单独学习,效率低下且泛化能力差。
核心思路:SkillVLA的核心思路是将双臂操作解耦为独立的单臂技能,并允许模型在不同的左右臂之间灵活地重组这些技能。通过这种方式,模型可以利用已学习的单臂技能来处理新的双臂协作任务,而无需重新学习所有可能的组合。这种技能复用机制显著提高了模型的泛化能力和学习效率。
技术框架:SkillVLA框架主要包含以下几个模块:1) 视觉编码器:用于提取场景的视觉特征;2) 语言编码器:用于理解任务指令;3) 单臂技能编码器:用于编码每个手臂的独立技能;4) 技能组合模块:用于将左右臂的技能进行组合,生成双臂的动作序列;5) 动作执行器:用于控制机械臂执行动作。整体流程是,首先通过视觉和语言编码器提取特征,然后利用单臂技能编码器生成左右臂的技能表示,接着通过技能组合模块将这些技能组合起来,最后通过动作执行器执行动作。
关键创新:SkillVLA的关键创新在于其解耦的技能表示和技能复用机制。与现有方法将双臂技能耦合在一起不同,SkillVLA将双臂操作分解为独立的单臂技能,并允许模型在不同的左右臂之间灵活地重组这些技能。这种解耦的表示方式使得模型可以更好地利用已学习的单臂技能,从而提高泛化能力和学习效率。
关键设计:SkillVLA的关键设计包括:1) 使用Transformer网络作为单臂技能编码器,以捕捉技能之间的依赖关系;2) 设计了一种新的技能组合模块,该模块可以根据任务指令动态地调整左右臂技能的组合方式;3) 使用强化学习来训练模型,并设计了一种奖励函数,鼓励模型学习可复用的单臂技能。
🖼️ 关键图片
📊 实验亮点
SkillVLA在技能组合任务中取得了显著的性能提升,将整体成功率从0%提高到51%。此外,在协作和长时程任务中,SkillVLA也表现出优异的性能,证明了其在复杂双臂操作任务中的有效性。这些实验结果表明,SkillVLA的技能复用机制能够显著提高模型的泛化能力和学习效率。
🎯 应用场景
SkillVLA在机器人自动化领域具有广泛的应用前景,例如在智能制造中,可以用于双臂协作装配、物料搬运等任务。在家庭服务机器人领域,可以用于双臂协同完成复杂的家务,如烹饪、清洁等。此外,该技术还可以应用于医疗机器人领域,辅助医生进行手术操作。
📄 摘要(原文)
Recent progress in vision-language-action (VLA) models has demonstrated strong potential for dual-arm manipulation, enabling complex behaviors and generalization to unseen environments. However, mainstream bimanual VLA formulations largely overlook the critical challenge of combinatorial diversity. Different pairings of single-arm behaviors can induce qualitatively distinct task behaviors, yet existing models do not explicitly account for this structure. We argue that effective bimanual VLAs should support skill reuse - the ability to recombine previously learned single-arm skills across novel left-right pairings - thereby avoiding the need to separately learn every possible combination. Current VLA designs entangle skills across arms, preventing such recomposition and limiting scalability. To address this limitation, we propose SkillVLA, a framework explicitly designed to enable skill reuse in dual-arm manipulation. Extensive experiments demonstrate that SkillVLA substantially improves skill composition, increasing overall success rate from 0% to 51%, and achieves strong performance on cooperative and long-horizon tasks.