Symskill: Symbol and Skill Co-Invention for Data-Efficient and Real-Time Long-Horizon Manipulation

📄 arXiv: 2510.01661v1 📥 PDF

作者: Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa

分类: cs.RO

发布日期: 2025-10-02

备注: CoRL 2025 Learning Effective Abstractions for Planning (LEAP) Workshop Best Paper Award (https://sites.google.com/view/symskill)


💡 一句话要点

SymSkill:用于数据高效和实时长时程操作的符号与技能协同发明

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模仿学习 符号规划 长时程任务 技能学习

📋 核心要点

  1. 现有模仿学习方法缺乏组合泛化能力,难以适应动态变化的环境,而传统TAMP方法规划延迟高,无法实时纠错。
  2. SymSkill通过联合学习谓词、算子和技能,结合模仿学习的反应性和符号规划的组合性,实现实时长时程操作。
  3. 实验表明,SymSkill在模拟和真实机器人上均表现出良好的性能,能够从少量数据中学习并进行多步任务的组合与实时恢复。

📝 摘要(中文)

在动态环境中进行多步骤操作仍然具有挑战性。现有的模仿学习(IL)方法虽然具有反应性,但缺乏组合泛化能力,因为整体策略无法在场景变化时决定重用哪个技能。而经典的Task-and-Motion Planning (TAMP)方法虽然具有组合性,但规划延迟过高,无法进行实时故障恢复。本文提出了SymSkill,一个统一的学习框架,结合了IL和TAMP的优点,实现了组合泛化和实时故障恢复。离线状态下,SymSkill直接从无标签和未分割的演示数据中联合学习谓词、算子和技能。在执行时,指定一个或多个学习到的谓词的合取后,SymSkill使用符号规划器来组合和重新排序学习到的技能以实现符号目标,同时在运动和符号级别实时执行恢复。结合顺应性控制器,SymSkill能够在人类和环境干扰下安全且不间断地执行。在RoboCasa模拟环境中,SymSkill可以执行12个单步任务,成功率为85%。在没有额外数据的情况下,它可以将这些技能组合成需要多达6个技能重组的多步计划,并能从执行失败中稳健地恢复。在真实的Franka机器人上,我们展示了SymSkill,从5分钟的未分割和未标记的玩耍数据中学习,能够仅通过目标规范来执行多个任务。

🔬 方法详解

问题定义:论文旨在解决机器人长时程操作任务中,模仿学习方法泛化性差和传统TAMP方法实时性不足的问题。现有的模仿学习方法通常是端到端的,缺乏对任务的分解和抽象,难以适应新的环境和目标。而TAMP方法虽然能够进行任务分解和规划,但其计算复杂度高,难以满足实时性要求。

核心思路:SymSkill的核心思路是将模仿学习和符号规划相结合,利用模仿学习快速学习基础技能,然后利用符号规划将这些技能组合成复杂的任务。通过这种方式,SymSkill既能保证实时性,又能提高泛化能力。此外,SymSkill还引入了谓词和算子的概念,用于描述环境的状态和技能的效果,从而实现更高级别的任务规划和故障恢复。

技术框架:SymSkill的整体框架包括离线学习和在线执行两个阶段。在离线学习阶段,SymSkill从无标签和未分割的演示数据中学习谓词、算子和技能。具体来说,SymSkill首先使用聚类算法将演示数据分割成不同的技能片段,然后学习每个技能片段对应的谓词和算子。在在线执行阶段,SymSkill首先根据当前环境的状态和目标,使用符号规划器生成一个技能序列,然后依次执行这些技能。如果在执行过程中发生故障,SymSkill会重新规划技能序列,以实现故障恢复。

关键创新:SymSkill最重要的技术创新点在于其联合学习谓词、算子和技能的能力。传统的TAMP方法通常需要手动定义谓词和算子,这需要大量的专家知识。而SymSkill能够自动从演示数据中学习这些信息,大大降低了使用TAMP方法的门槛。此外,SymSkill还能够进行实时故障恢复,这使得它能够适应动态变化的环境。

关键设计:SymSkill的关键设计包括以下几个方面:(1) 使用变分自编码器(VAE)学习技能的潜在表示;(2) 使用对比学习来学习谓词和算子;(3) 使用A*算法进行符号规划;(4) 使用顺应性控制器来保证机器人的安全。

📊 实验亮点

SymSkill在RoboCasa模拟环境中执行12个单步任务的成功率为85%。在没有额外数据的情况下,它可以将这些技能组合成需要多达6个技能重组的多步计划,并能从执行失败中稳健地恢复。在真实的Franka机器人上,SymSkill仅从5分钟的未分割和未标记的玩耍数据中学习,就能够仅通过目标规范来执行多个任务,展示了其数据效率和泛化能力。

🎯 应用场景

SymSkill具有广泛的应用前景,例如智能家居、工业自动化、医疗机器人等领域。它可以用于控制机器人完成各种复杂的任务,例如物品抓取、装配、清洁等。通过学习人类的演示数据,SymSkill可以使机器人更加智能、灵活和易于使用,从而提高生产效率和服务质量。未来,SymSkill有望成为机器人领域的一项关键技术。

📄 摘要(原文)

Multi-step manipulation in dynamic environments remains challenging. Two major families of methods fail in distinct ways: (i) imitation learning (IL) is reactive but lacks compositional generalization, as monolithic policies do not decide which skill to reuse when scenes change; (ii) classical task-and-motion planning (TAMP) offers compositionality but has prohibitive planning latency, preventing real-time failure recovery. We introduce SymSkill, a unified learning framework that combines the benefits of IL and TAMP, allowing compositional generalization and failure recovery in real-time. Offline, SymSkill jointly learns predicates, operators, and skills directly from unlabeled and unsegmented demonstrations. At execution time, upon specifying a conjunction of one or more learned predicates, SymSkill uses a symbolic planner to compose and reorder learned skills to achieve the symbolic goals, while performing recovery at both the motion and symbolic levels in real time. Coupled with a compliant controller, SymSkill enables safe and uninterrupted execution under human and environmental disturbances. In RoboCasa simulation, SymSkill can execute 12 single-step tasks with 85% success rate. Without additional data, it composes these skills into multi-step plans requiring up to 6 skill recompositions, recovering robustly from execution failures. On a real Franka robot, we demonstrate SymSkill, learning from 5 minutes of unsegmented and unlabeled play data, is capable of performing multiple tasks simply by goal specifications. The source code and additional analysis can be found on https://sites.google.com/view/symskill.