Symskill: Symbol and Skill Co-Invention for Data-Efficient and Real-Time Long-Horizon Manipulation

作者: Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa

分类: cs.RO

发布日期: 2025-10-02

备注: CoRL 2025 Learning Effective Abstractions for Planning (LEAP) Workshop Best Paper Award (https://sites.google.com/view/symskill)

💡 一句话要点

SymSkill：用于数据高效和实时长时程操作的符号与技能协同发明

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 模仿学习 符号规划 长时程任务 技能学习

📋 核心要点

现有模仿学习方法缺乏组合泛化能力，难以适应动态变化的环境，而传统TAMP方法规划延迟高，无法实时纠错。
SymSkill通过联合学习谓词、算子和技能，结合模仿学习的反应性和符号规划的组合性，实现实时长时程操作。
实验表明，SymSkill在模拟和真实机器人上均表现出良好的性能，能够从少量数据中学习并进行多步任务的组合与实时恢复。

📝 摘要（中文）

在动态环境中进行多步骤操作仍然具有挑战性。现有的模仿学习（IL）方法虽然具有反应性，但缺乏组合泛化能力，因为整体策略无法在场景变化时决定重用哪个技能。而经典的Task-and-Motion Planning (TAMP)方法虽然具有组合性，但规划延迟过高，无法进行实时故障恢复。本文提出了SymSkill，一个统一的学习框架，结合了IL和TAMP的优点，实现了组合泛化和实时故障恢复。离线状态下，SymSkill直接从无标签和未分割的演示数据中联合学习谓词、算子和技能。在执行时，指定一个或多个学习到的谓词的合取后，SymSkill使用符号规划器来组合和重新排序学习到的技能以实现符号目标，同时在运动和符号级别实时执行恢复。结合顺应性控制器，SymSkill能够在人类和环境干扰下安全且不间断地执行。在RoboCasa模拟环境中，SymSkill可以执行12个单步任务，成功率为85%。在没有额外数据的情况下，它可以将这些技能组合成需要多达6个技能重组的多步计划，并能从执行失败中稳健地恢复。在真实的Franka机器人上，我们展示了SymSkill，从5分钟的未分割和未标记的玩耍数据中学习，能够仅通过目标规范来执行多个任务。

🔬 方法详解

问题定义：论文旨在解决机器人长时程操作任务中，模仿学习方法泛化性差和传统TAMP方法实时性不足的问题。现有的模仿学习方法通常是端到端的，缺乏对任务的分解和抽象，难以适应新的环境和目标。而TAMP方法虽然能够进行任务分解和规划，但其计算复杂度高，难以满足实时性要求。

核心思路：SymSkill的核心思路是将模仿学习和符号规划相结合，利用模仿学习快速学习基础技能，然后利用符号规划将这些技能组合成复杂的任务。通过这种方式，SymSkill既能保证实时性，又能提高泛化能力。此外，SymSkill还引入了谓词和算子的概念，用于描述环境的状态和技能的效果，从而实现更高级别的任务规划和故障恢复。

技术框架：SymSkill的整体框架包括离线学习和在线执行两个阶段。在离线学习阶段，SymSkill从无标签和未分割的演示数据中学习谓词、算子和技能。具体来说，SymSkill首先使用聚类算法将演示数据分割成不同的技能片段，然后学习每个技能片段对应的谓词和算子。在在线执行阶段，SymSkill首先根据当前环境的状态和目标，使用符号规划器生成一个技能序列，然后依次执行这些技能。如果在执行过程中发生故障，SymSkill会重新规划技能序列，以实现故障恢复。

关键创新：SymSkill最重要的技术创新点在于其联合学习谓词、算子和技能的能力。传统的TAMP方法通常需要手动定义谓词和算子，这需要大量的专家知识。而SymSkill能够自动从演示数据中学习这些信息，大大降低了使用TAMP方法的门槛。此外，SymSkill还能够进行实时故障恢复，这使得它能够适应动态变化的环境。

关键设计：SymSkill的关键设计包括以下几个方面：(1) 使用变分自编码器（VAE）学习技能的潜在表示；(2) 使用对比学习来学习谓词和算子；(3) 使用A*算法进行符号规划；(4) 使用顺应性控制器来保证机器人的安全。

📊 实验亮点

SymSkill在RoboCasa模拟环境中执行12个单步任务的成功率为85%。在没有额外数据的情况下，它可以将这些技能组合成需要多达6个技能重组的多步计划，并能从执行失败中稳健地恢复。在真实的Franka机器人上，SymSkill仅从5分钟的未分割和未标记的玩耍数据中学习，就能够仅通过目标规范来执行多个任务，展示了其数据效率和泛化能力。

🎯 应用场景

SymSkill具有广泛的应用前景，例如智能家居、工业自动化、医疗机器人等领域。它可以用于控制机器人完成各种复杂的任务，例如物品抓取、装配、清洁等。通过学习人类的演示数据，SymSkill可以使机器人更加智能、灵活和易于使用，从而提高生产效率和服务质量。未来，SymSkill有望成为机器人领域的一项关键技术。

📄 摘要（原文）

Multi-step manipulation in dynamic environments remains challenging. Two major families of methods fail in distinct ways: (i) imitation learning (IL) is reactive but lacks compositional generalization, as monolithic policies do not decide which skill to reuse when scenes change; (ii) classical task-and-motion planning (TAMP) offers compositionality but has prohibitive planning latency, preventing real-time failure recovery. We introduce SymSkill, a unified learning framework that combines the benefits of IL and TAMP, allowing compositional generalization and failure recovery in real-time. Offline, SymSkill jointly learns predicates, operators, and skills directly from unlabeled and unsegmented demonstrations. At execution time, upon specifying a conjunction of one or more learned predicates, SymSkill uses a symbolic planner to compose and reorder learned skills to achieve the symbolic goals, while performing recovery at both the motion and symbolic levels in real time. Coupled with a compliant controller, SymSkill enables safe and uninterrupted execution under human and environmental disturbances. In RoboCasa simulation, SymSkill can execute 12 single-step tasks with 85% success rate. Without additional data, it composes these skills into multi-step plans requiring up to 6 skill recompositions, recovering robustly from execution failures. On a real Franka robot, we demonstrate SymSkill, learning from 5 minutes of unsegmented and unlabeled play data, is capable of performing multiple tasks simply by goal specifications. The source code and additional analysis can be found on https://sites.google.com/view/symskill.

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Real-Time Long-Horizon Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册