DexMan: Learning Bimanual Dexterous Manipulation from Human and Generated Videos

📄 arXiv: 2510.08475v1 📥 PDF

作者: Jhen Hsieh, Kuan-Hsun Tu, Kuo-Han Hung, Tsung-Wei Ke

分类: cs.RO, cs.CV, cs.LG

发布日期: 2025-10-09

备注: Video results are available at: https://embodiedai-ntu.github.io/dexman/index.html


💡 一句话要点

DexMan:从人类和生成视频中学习双手动灵巧操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 灵巧操作 机器人学习 强化学习 物体姿态估计 视频模仿学习

📋 核心要点

  1. 现有方法在机器人灵巧操作学习中依赖精确的传感器数据和手动标注,成本高昂且泛化性差。
  2. DexMan通过直接从人类视频中学习,结合接触奖励,实现了无需精确数据和人工干预的机器人灵巧操作技能学习。
  3. 实验表明,DexMan在物体姿态估计和操作成功率上均超越现有方法,并能利用合成数据扩展训练规模。

📝 摘要(中文)

DexMan是一个自动化框架,可以将人类视觉演示转换为人形机器人在仿真环境中的双手动灵巧操作技能。它直接处理人类操纵刚性物体的第三人称视角视频,无需相机校准、深度传感器、扫描的3D物体资产或真实的手部和物体运动标注。与仅考虑简化浮动手部的先前方法不同,DexMan直接控制人形机器人,并利用基于接触的新型奖励来改进从嘈杂的手部-物体姿势(从真实视频中估计)中进行策略学习。DexMan在TACO基准测试中实现了最先进的物体姿势估计性能,ADD-S和VSD分别绝对提升了0.08和0.12。同时,其强化学习策略在OakInk-v2上的成功率超过了以前的方法19%。此外,DexMan可以从真实和合成视频中生成技能,无需手动数据收集和昂贵的运动捕捉,从而能够创建大规模、多样化的数据集,用于训练通用灵巧操作。

🔬 方法详解

问题定义:现有机器人灵巧操作学习方法通常依赖于精确的相机标定、深度传感器、物体3D模型以及手部和物体运动的精确标注。这些需求限制了数据收集的规模和多样性,使得训练得到的策略难以泛化到真实世界。此外,以往方法通常简化手部模型,忽略了接触信息的重要性,导致学习到的操作技能不够精细和稳定。

核心思路:DexMan的核心思路是从人类操作视频中直接学习,避免对精确数据的依赖。通过结合视觉信息和接触奖励,引导机器人学习模仿人类的灵巧操作。利用强化学习,在仿真环境中优化策略,使其能够适应真实世界中的噪声和不确定性。

技术框架:DexMan的整体框架包含以下几个主要模块:1) 物体姿态估计模块:从视频中估计手部和物体的姿态。2) 奖励函数设计:设计基于接触的奖励函数,鼓励机器人与物体进行有效的交互。3) 强化学习策略优化:使用强化学习算法,在仿真环境中优化机器人的操作策略。4) 数据生成模块:利用合成视频生成更多样化的训练数据。

关键创新:DexMan的关键创新在于:1) 直接从人类视频中学习,无需精确的传感器数据和人工标注。2) 基于接触的奖励函数,能够更有效地引导机器人学习灵巧操作。3) 利用合成数据扩展训练规模,提高策略的泛化能力。

关键设计:在物体姿态估计模块中,使用了先进的视觉算法,例如TACO。奖励函数的设计考虑了手部与物体的接触力、相对位置和姿态等因素。强化学习算法采用了PPO等常用的算法,并针对灵巧操作任务进行了优化。合成数据的生成使用了物理引擎,模拟了各种不同的操作场景。

📊 实验亮点

DexMan在TACO基准测试中,物体姿态估计的ADD-S和VSD指标分别提升了0.08和0.12,达到了state-of-the-art水平。在OakInk-v2任务中,强化学习策略的成功率比之前的方法提高了19%。这些结果表明,DexMan能够有效地从人类视频中学习灵巧操作技能,并在仿真环境中进行优化。

🎯 应用场景

DexMan技术可应用于自动化装配、医疗手术机器人、家庭服务机器人等领域。通过学习人类的灵巧操作技能,机器人能够完成更加复杂和精细的任务,提高生产效率和服务质量。该技术还能促进通用机器人操作技能的发展,使机器人能够适应不同的环境和任务。

📄 摘要(原文)

We present DexMan, an automated framework that converts human visual demonstrations into bimanual dexterous manipulation skills for humanoid robots in simulation. Operating directly on third-person videos of humans manipulating rigid objects, DexMan eliminates the need for camera calibration, depth sensors, scanned 3D object assets, or ground-truth hand and object motion annotations. Unlike prior approaches that consider only simplified floating hands, it directly controls a humanoid robot and leverages novel contact-based rewards to improve policy learning from noisy hand-object poses estimated from in-the-wild videos. DexMan achieves state-of-the-art performance in object pose estimation on the TACO benchmark, with absolute gains of 0.08 and 0.12 in ADD-S and VSD. Meanwhile, its reinforcement learning policy surpasses previous methods by 19% in success rate on OakInk-v2. Furthermore, DexMan can generate skills from both real and synthetic videos, without the need for manual data collection and costly motion capture, and enabling the creation of large-scale, diverse datasets for training generalist dexterous manipulation.