TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System
作者: Yanjie Ze, Siheng Zhao, Weizhuo Wang, Angjoo Kanazawa, Rocky Duan, Pieter Abbeel, Guanya Shi, Jiajun Wu, C. Karen Liu
分类: cs.RO, cs.CV, cs.LG
发布日期: 2025-11-04
备注: Website: https://yanjieze.com/TWIST2
💡 一句话要点
TWIST2:一种可扩展、便携、整体的人形机器人数据收集系统
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)
关键词: 人形机器人 遥操作 数据收集 视觉运动策略 模仿学习
📋 核心要点
- 现有的人形机器人遥操作系统依赖昂贵的运动捕捉设备或采用解耦控制,限制了数据收集的规模和全身控制的完整性。
- TWIST2通过使用VR设备和低成本的机器人颈部,实现便携式、无需运动捕捉的全身遥操作,从而扩展了数据收集能力。
- 实验证明,TWIST2能够高效收集高质量的人形机器人数据,并成功训练出基于视觉的全身控制策略,完成灵巧操作和动态踢腿等任务。
📝 摘要(中文)
大规模数据推动了机器人技术的突破,从语言模型到双手动灵巧操作中的视觉-语言-动作模型。然而,人形机器人缺乏同样有效的数据收集框架。现有的人形机器人遥操作系统要么使用解耦控制,要么依赖昂贵的运动捕捉装置。我们介绍了TWIST2,一种便携式、无需运动捕捉的人形机器人遥操作和数据收集系统,它保留了完整的全身控制,同时提高了可扩展性。我们的系统利用PICO4U VR获取实时全身人体运动,并配备定制的2自由度机器人颈部(成本约250美元)来实现以自我为中心的视觉,从而实现整体的人-机器人控制。我们展示了长时程的灵巧和移动人形机器人技能,并且我们可以在15分钟内收集100个演示,成功率几乎达到100%。在此基础上,我们提出了一个分层的视觉运动策略框架,该框架基于以自我为中心的视觉自主控制整个人形机器人身体。我们的视觉运动策略成功地展示了全身灵巧操作和动态踢腿任务。整个系统是完全可复现的,并在https://yanjieze.com/TWIST2开源。我们收集的数据集也在https://twist-data.github.io开源。
🔬 方法详解
问题定义:论文旨在解决人形机器人数据收集效率低、成本高的问题。现有方法要么依赖昂贵的运动捕捉系统,限制了可扩展性;要么采用解耦控制,无法实现全身协调控制,影响了数据质量。这些问题阻碍了人形机器人学习复杂技能。
核心思路:论文的核心思路是利用低成本的VR设备(PICO4U)和定制的机器人颈部,构建一个便携式、无需运动捕捉的全身遥操作系统。通过VR设备获取人体全身运动数据,并将其映射到人形机器人上,实现直观的全身控制。同时,机器人颈部提供以自我为中心的视觉信息,用于训练视觉运动策略。
技术框架:TWIST2系统主要包含以下几个模块:1) VR设备(PICO4U)用于捕捉人体运动;2) 定制的2自由度机器人颈部,提供以自我为中心的视觉信息;3) 运动映射模块,将人体运动数据映射到人形机器人;4) 遥操作界面,允许用户控制人形机器人;5) 分层视觉运动策略框架,基于视觉信息自主控制人形机器人。
关键创新:TWIST2的关键创新在于:1) 提出了一个低成本、便携式、无需运动捕捉的全身遥操作系统,显著降低了数据收集的成本和复杂性;2) 集成了机器人颈部,提供了以自我为中心的视觉信息,为训练视觉运动策略提供了必要的数据;3) 提出了一个分层的视觉运动策略框架,实现了基于视觉的全身自主控制。
关键设计:机器人颈部采用2自由度设计,成本约为250美元。运动映射模块采用逆运动学算法,将人体运动数据映射到人形机器人。分层视觉运动策略框架包含高层策略和低层策略,高层策略负责规划任务目标,低层策略负责执行具体动作。损失函数包括运动学损失、视觉损失和任务损失。
📊 实验亮点
TWIST2系统能够在15分钟内收集100个演示,成功率接近100%,显著提高了数据收集效率。基于TWIST2收集的数据,论文成功训练出能够完成全身灵巧操作和动态踢腿任务的视觉运动策略。这些实验结果表明,TWIST2是一个高效、可靠的人形机器人数据收集系统。
🎯 应用场景
TWIST2系统可应用于人形机器人的各种研究领域,例如模仿学习、强化学习、人机协作等。该系统能够高效收集高质量的数据,加速人形机器人技能的学习和开发。此外,该系统还可用于远程操作、危险环境作业等实际应用场景,具有重要的实际价值和应用前景。
📄 摘要(原文)
Large-scale data has driven breakthroughs in robotics, from language models to vision-language-action models in bimanual manipulation. However, humanoid robotics lacks equally effective data collection frameworks. Existing humanoid teleoperation systems either use decoupled control or depend on expensive motion capture setups. We introduce TWIST2, a portable, mocap-free humanoid teleoperation and data collection system that preserves full whole-body control while advancing scalability. Our system leverages PICO4U VR for obtaining real-time whole-body human motions, with a custom 2-DoF robot neck (cost around $250) for egocentric vision, enabling holistic human-to-humanoid control. We demonstrate long-horizon dexterous and mobile humanoid skills and we can collect 100 demonstrations in 15 minutes with an almost 100% success rate. Building on this pipeline, we propose a hierarchical visuomotor policy framework that autonomously controls the full humanoid body based on egocentric vision. Our visuomotor policy successfully demonstrates whole-body dexterous manipulation and dynamic kicking tasks. The entire system is fully reproducible and open-sourced at https://yanjieze.com/TWIST2 . Our collected dataset is also open-sourced at https://twist-data.github.io .