HandDiffuse: Generative Controllers for Two-Hand Interactions via Diffusion Models
作者: Pei Lin, Sihang Xu, Hongdi Yang, Yiran Liu, Xin Chen, Jingya Wang, Jingyi Yu, Lan Xu
分类: cs.CV
发布日期: 2023-12-08 (更新: 2025-04-23)
💡 一句话要点
HandDiffuse:利用扩散模型生成可控的双手交互运动
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 双手交互 运动生成 扩散模型 可控生成 数据集 人机交互 虚拟现实
📋 核心要点
- 现有手部交互数据集规模小、交互弱,难以支持高质量的双手交互运动生成。
- HandDiffuse提出了一种基于扩散模型的可控双手交互运动生成框架,并设计了交互损失。
- HandDiffuse在运动生成方面优于现有技术,并能为其他数据集提供数据增强。
📝 摘要(中文)
由于手的自遮挡和自相似性,现有的手部数据集大多是短程的,交互性较弱,无法满足交互式手部运动生成的需求。为了解决数据稀缺问题,我们提出了HandDiffuse12.5M,这是一个包含强双手交互的时间序列的新数据集。HandDiffuse12.5M是现有双手数据集中规模最大、交互最丰富的。我们进一步提出了一种强大的基线方法HandDiffuse,用于使用各种控制器对交互手的可控运动生成。具体来说,我们应用扩散模型作为主干,并为不同的控制器设计了两种运动表示。为了减少伪影,我们还提出了交互损失,它明确地量化了动态交互过程。我们的HandDiffuse支持各种具有生动双手交互的应用,即运动插值和轨迹控制。实验表明,我们的方法优于最先进的运动生成技术,并且还可以为其他数据集的数据增强做出贡献。我们的数据集、相应的代码和预训练模型将分发给社区,用于未来对手部交互建模的研究。
🔬 方法详解
问题定义:论文旨在解决双手交互运动生成的数据稀缺和控制难题。现有方法受限于数据集规模小、交互弱,难以生成自然、可控的双手交互运动。此外,手的自遮挡和自相似性也增加了建模的难度。
核心思路:论文的核心思路是利用扩散模型强大的生成能力,结合精心设计的运动表示和交互损失,实现对双手交互运动的精确控制和高质量生成。通过扩散模型学习双手运动的潜在分布,并利用控制器引导生成过程,从而实现可控的双手交互。
技术框架:HandDiffuse的整体框架基于扩散模型,主要包含以下几个模块:1) 数据集HandDiffuse12.5M:用于训练扩散模型的大规模双手交互数据集。2) 运动表示:针对不同的控制器,设计了两种运动表示方式,以适应不同的控制需求。3) 扩散模型:作为运动生成的主干网络,学习双手运动的潜在分布。4) 控制器:用于引导扩散模型的生成过程,实现对双手运动的控制。5) 交互损失:用于显式地量化动态交互过程,减少生成结果中的伪影。
关键创新:论文的关键创新在于:1) 提出了大规模的双手交互数据集HandDiffuse12.5M,为相关研究提供了数据基础。2) 设计了基于扩散模型的可控双手交互运动生成框架HandDiffuse,实现了高质量的运动生成和精确控制。3) 提出了交互损失,有效地减少了生成结果中的伪影。
关键设计:论文的关键设计包括:1) 针对不同的控制器,设计了两种运动表示方式,例如,对于轨迹控制,使用关键点轨迹作为输入。2) 交互损失的设计,通过显式地量化动态交互过程,鼓励模型生成更自然的交互运动。3) 扩散模型的具体参数设置和训练策略,例如,噪声schedule的选择和训练迭代次数。
📊 实验亮点
HandDiffuse在运动生成任务上取得了显著的性能提升,优于现有的最先进技术。通过实验验证,HandDiffuse能够生成高质量、自然的双手交互运动,并且能够有效地减少伪影。此外,HandDiffuse还可以作为数据增强方法,提升其他手部数据集的性能。具体性能数据未知。
🎯 应用场景
该研究成果可应用于虚拟现实、人机交互、游戏开发等领域。例如,可以用于生成虚拟角色与用户进行自然交互的双手动作,提升用户体验。此外,还可以用于机器人控制,使机器人能够执行复杂的双手操作任务。未来,该技术有望进一步拓展到更多领域,如康复训练、远程协作等。
📄 摘要(原文)
Existing hands datasets are largely short-range and the interaction is weak due to the self-occlusion and self-similarity of hands, which can not yet fit the need for interacting hands motion generation. To rescue the data scarcity, we propose HandDiffuse12.5M, a novel dataset that consists of temporal sequences with strong two-hand interactions. HandDiffuse12.5M has the largest scale and richest interactions among the existing two-hand datasets. We further present a strong baseline method HandDiffuse for the controllable motion generation of interacting hands using various controllers. Specifically, we apply the diffusion model as the backbone and design two motion representations for different controllers. To reduce artifacts, we also propose Interaction Loss which explicitly quantifies the dynamic interaction process. Our HandDiffuse enables various applications with vivid two-hand interactions, i.e., motion in-betweening and trajectory control. Experiments show that our method outperforms the state-of-the-art techniques in motion generation and can also contribute to data augmentation for other datasets. Our dataset, corresponding codes, and pre-trained models will be disseminated to the community for future research towards two-hand interaction modeling.