Ins-HOI: Instance Aware Human-Object Interactions Recovery

📄 arXiv: 2312.09641v2 📥 PDF

作者: Jiajun Zhang, Yuxiang Zhang, Hongwen Zhang, Xiao Zhou, Boyao Zhou, Ruizhi Shao, Zonghai Hu, Yebin Liu

分类: cs.CV

发布日期: 2023-12-15 (更新: 2024-03-21)

备注: Project Page: https://jiajunzhang16.github.io/ins-hoi/ , Code and Dataset Page: https://github.com/jiajunzhang16/ins-hoi


💡 一句话要点

提出Ins-HOI框架,通过实例感知的隐式场重建人与物体的交互

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人-物体交互 隐式场 三维重建 实例分割 互补训练

📋 核心要点

  1. 现有方法难以精确建模人与物体交互的几何细节、形变和不可见接触面,尤其是在实例级别。
  2. Ins-HOI框架通过引入实例级别的隐式场表示,并结合合成数据和真实数据进行互补训练,从而解耦不同实例。
  3. 实验结果表明,Ins-HOI能够实现实例级别的重建,并生成合理且真实的不可见接触面。

📝 摘要(中文)

本文提出了一种实例感知的HOI(人-物体交互)重建框架Ins-HOI,旨在精确建模人/手与物体之间细致的交互。现有方法通常将多个对象重建为统一的网格,无法单独建模每个实例的状态。虽然基于模板的方法可以追踪人/手和物体,但重建质量受限于模板的表达能力,难以处理几何细节、形变和不可见的接触面。Ins-HOI引入实例级别的隐式场表示。针对真实数据缺乏实例级别监督的问题,本文提出了一种互补训练策略,利用合成数据引入实例级别的形状先验,从而解耦不同实例的隐式场。合成数据通过随机组合人/手和物体的独立扫描,引导网络学习实例的粗略先验。真实数据则帮助学习整体几何形状并约束接触区域的相互渗透。实验表明,Ins-HOI支持实例级别的重建,并在极端近距离交互情况下提供合理且真实的不可见接触面。此外,本文收集了一个大规模、高保真的3D扫描数据集,包含5.2k高质量的真实人-椅和手-物体交互扫描数据,代码和数据将公开。

🔬 方法详解

问题定义:现有方法在重建人与物体交互时,通常将多个对象重建为统一的网格,无法单独建模每个实例的状态。基于模板的方法虽然可以追踪人/手和物体,但重建质量受限于模板的表达能力,难以处理复杂的几何细节、剧烈的形变以及不可见的接触面。因此,如何精确且实例级别地重建人与物体的交互是一个挑战。

核心思路:本文的核心思路是利用实例级别的隐式场表示来建模人、手和物体。隐式场能够灵活地表示复杂的几何形状,并且可以方便地进行微分操作,从而优化重建结果。为了解决真实数据缺乏实例级别监督的问题,本文提出了一个互补训练策略,结合合成数据和真实数据,从而学习实例级别的形状先验。

技术框架:Ins-HOI框架包含两个主要部分:实例级别的隐式场表示和互补训练策略。首先,框架使用一个神经网络来预测每个实例的隐式场。然后,利用互补训练策略,结合合成数据和真实数据来训练网络。合成数据用于学习实例的形状先验,真实数据用于学习整体几何形状和约束接触区域的相互渗透。

关键创新:本文最重要的创新点在于提出了一个实例感知的隐式场表示,并结合互补训练策略,从而实现了实例级别的HOI重建。与现有方法相比,Ins-HOI能够更好地处理复杂的几何细节、剧烈的形变以及不可见的接触面。

关键设计:在互补训练策略中,合成数据通过随机组合人/手和物体的独立扫描生成,并提供实例级别的监督信号。真实数据则用于学习整体几何形状和约束接触区域的相互渗透。损失函数包括隐式场重建损失、实例分割损失和接触区域约束损失。网络结构采用类似于 Occupancy Networks 的结构,但针对实例级别进行了修改。

📊 实验亮点

实验结果表明,Ins-HOI框架能够实现实例级别的HOI重建,并在极端近距离交互情况下提供合理且真实的不可见接触面。与现有方法相比,Ins-HOI在重建质量和实例分割精度方面均有显著提升。此外,本文还收集了一个大规模、高保真的3D扫描数据集,为该领域的研究提供了宝贵的数据资源。

🎯 应用场景

Ins-HOI框架在虚拟现实、增强现实、机器人操作和人机交互等领域具有广泛的应用前景。例如,可以用于创建更逼真的虚拟环境,实现更精确的机器人操作,以及设计更自然的人机交互界面。该研究还有助于理解人类如何与物体进行交互,从而为认知科学和人工智能研究提供新的 insights。

📄 摘要(原文)

Accurately modeling detailed interactions between human/hand and object is an appealing yet challenging task. Current multi-view capture systems are only capable of reconstructing multiple subjects into a single, unified mesh, which fails to model the states of each instance individually during interactions. To address this, previous methods use template-based representations to track human/hand and object. However, the quality of the reconstructions is limited by the descriptive capabilities of the templates so that these methods are inherently struggle with geometry details, pressing deformations and invisible contact surfaces. In this work, we propose an end-to-end Instance-aware Human-Object Interactions recovery (Ins-HOI) framework by introducing an instance-level occupancy field representation. However, the real-captured data is presented as a holistic mesh, unable to provide instance-level supervision. To address this, we further propose a complementary training strategy that leverages synthetic data to introduce instance-level shape priors, enabling the disentanglement of occupancy fields for different instances. Specifically, synthetic data, created by randomly combining individual scans of humans/hands and objects, guides the network to learn a coarse prior of instances. Meanwhile, real-captured data helps in learning the overall geometry and restricting interpenetration in contact areas. As demonstrated in experiments, our method Ins-HOI supports instance-level reconstruction and provides reasonable and realistic invisible contact surfaces even in cases of extremely close interaction. To facilitate the research of this task, we collect a large-scale, high-fidelity 3D scan dataset, including 5.2k high-quality scans with real-world human-chair and hand-object interactions. The code and data will be public for research purposes.