Uni-Skill: Building Self-Evolving Skill Repository for Generalizable Robotic Manipulation
作者: Senwei Xie, Yuntian Zhang, Ruiping Wang, Xilin Chen
分类: cs.RO, cs.LG
发布日期: 2026-03-03
备注: Accepted to ICRA2026
💡 一句话要点
Uni-Skill:构建自进化技能库,提升机器人操作的泛化性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 技能学习 视觉语言模型 自动技能进化 零样本泛化
📋 核心要点
- 现有技能中心方法依赖固定的技能库,难以适应新任务,需要人工干预。
- Uni-Skill通过技能感知的规划和自动技能进化,构建自增强的技能库,提升适应性。
- 实验表明,Uni-Skill在模拟和真实环境中均优于现有方法,展现出强大的推理和泛化能力。
📝 摘要(中文)
本文提出Uni-Skill,一个统一的技能中心框架,支持技能感知的规划并促进自动技能进化。与限制规划于预定义技能的方法不同,当现有技能不足时,Uni-Skill会请求新的技能实现,确保规划的可适应性以及技能库的自我增强。为了支持规划模块请求的各种技能的自动实现,本文构建了SkillFolder,一个受VerbNet启发的、源于大规模非结构化机器人视频的知识库。SkillFolder引入了分层技能分类法,在多个抽象级别捕获不同的技能描述。通过用大规模自动标注的演示填充该分类法,Uni-Skill将技能获取的范式从低效的手动标注转变为高效的离线结构化检索。检索到的示例为行为模式提供语义监督,并为空间轨迹提供精细的参考,从而实现无需部署时演示的少样本技能推理。在模拟和真实环境中的综合实验验证了Uni-Skill相对于现有基于VLM的技能中心方法的先进性能,突出了其先进的推理能力和在各种新任务中的强大零样本泛化能力。
🔬 方法详解
问题定义:现有基于技能的机器人操作方法通常依赖于预定义的、固定的技能库。当面对新的、未知的任务时,这些方法难以适应,需要人工设计新的技能并添加到技能库中,这限制了其泛化能力和自动化程度。因此,如何构建一个能够自动进化、适应新任务的技能库是本文要解决的核心问题。
核心思路:本文的核心思路是构建一个统一的技能中心框架Uni-Skill,该框架能够根据任务需求自动请求新的技能实现,并利用大规模的机器人视频数据自动生成这些技能。通过这种方式,Uni-Skill能够不断扩展和完善自身的技能库,从而适应各种新的任务。这种自进化的能力使得机器人能够更好地泛化到未知的环境中。
技术框架:Uni-Skill框架主要包含两个核心模块:技能感知规划器和SkillFolder技能库。技能感知规划器负责根据任务需求选择合适的技能,如果现有技能不足,则会向SkillFolder请求新的技能实现。SkillFolder是一个受VerbNet启发的技能知识库,它包含一个分层的技能分类法,以及大量自动标注的机器人视频演示。当收到技能请求时,SkillFolder会检索相关的视频演示,并将其提供给技能感知规划器,用于生成新的技能实现。
关键创新:Uni-Skill最重要的创新点在于其自动技能进化的能力。与传统的依赖人工设计的技能库的方法不同,Uni-Skill能够根据任务需求自动请求和生成新的技能,从而实现技能库的自我增强。此外,SkillFolder的构建也避免了耗时耗力的人工标注,而是利用大规模的机器人视频数据进行自动标注,大大提高了技能获取的效率。
关键设计:SkillFolder采用分层技能分类法,允许在不同抽象级别描述技能。自动标注过程利用视觉语言模型对视频进行分析,提取技能相关的语义信息和空间轨迹。技能感知规划器使用检索到的视频演示作为参考,通过模仿学习或强化学习等方法生成新的技能实现。具体的参数设置、损失函数和网络结构等细节在论文中有更详细的描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Uni-Skill在模拟和真实环境中均取得了显著的性能提升。与现有的基于VLM的技能中心方法相比,Uni-Skill在各种新任务中展现出更强的零样本泛化能力。具体的性能数据和对比基线在论文中有详细的展示。
🎯 应用场景
Uni-Skill具有广泛的应用前景,例如在智能制造、家庭服务、医疗康复等领域。它可以帮助机器人更好地适应各种复杂和动态的环境,完成各种任务,提高生产效率和服务质量。未来,Uni-Skill有望成为通用机器人操作系统的核心组成部分,推动机器人技术的进一步发展。
📄 摘要(原文)
While skill-centric approaches leverage foundation models to enhance generalization in compositional tasks, they often rely on fixed skill libraries, limiting adaptability to new tasks without manual intervention. To address this, we propose Uni-Skill, a Unified Skill-centric framework that supports skill-aware planning and facilitates automatic skill evolution. Unlike prior methods that restrict planning to predefined skills, Uni-Skill requests for new skill implementations when existing ones are insufficient, ensuring adaptable planning with self-augmented skill library. To support automatic implementation of diverse skills requested by the planning module, we construct SkillFolder, a VerbNet-inspired repository derived from large-scale unstructured robotic videos. SkillFolder introduces a hierarchical skill taxonomy that captures diverse skill descriptions at multiple levels of abstraction. By populating this taxonomy with large-scale, automatically annotated demonstrations, Uni-Skill shifts the paradigm of skill acquisition from inefficient manual annotation to efficient offline structural retrieval. Retrieved examples provide semantic supervision over behavior patterns and fine-grained references for spatial trajectories, enabling few-shot skill inference without deployment-time demonstrations. Comprehensive experiments in both simulation and real-world settings verify the state-of-the-art performance of Uni-Skill over existing VLM-based skill-centric approaches, highlighting its advanced reasoning capabilities and strong zero-shot generalization across a wide range of novel tasks.