REACT3D: Recovering Articulations for Interactive Physical 3D Scenes

📄 arXiv: 2510.11340v2 📥 PDF

作者: Zhao Huang, Boyang Sun, Alexandros Delitzas, Jiaqi Chen, Marc Pollefeys

分类: cs.CV, cs.RO

发布日期: 2025-10-13 (更新: 2025-10-14)

备注: 8 pages


💡 一句话要点

REACT3D:用于交互式物理3D场景的铰接结构恢复框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D场景理解 铰接结构恢复 交互式场景生成 零样本学习 具身智能

📋 核心要点

  1. 现有交互式3D场景数据集缺乏部件分割、运动学类型和运动轨迹的标注,限制了具身智能的发展。
  2. REACT3D通过可打开对象检测、铰接估计、隐藏几何补全和交互式对象组装,将静态3D场景转换为交互式副本。
  3. 该框架在室内场景的检测/分割和铰接指标上取得了领先性能,为大规模交互式场景生成研究奠定了基础。

📝 摘要(中文)

交互式3D场景在具身智能中日益重要,但现有数据集在部件分割、运动学类型和运动轨迹的标注方面仍然受限,因为标注过程非常耗费人力。我们提出了REACT3D,一个可扩展的零样本框架,可以将静态3D场景转换为可用于仿真的交互式副本,并具有一致的几何结构,从而可以直接用于各种下游任务。我们的贡献包括:(i)可打开对象检测和分割,以从静态场景中提取候选可移动部件;(ii)铰接估计,推断关节类型和运动参数;(iii)隐藏几何补全,然后进行交互式对象组装;(iv)在广泛支持的格式中进行交互式场景集成,以确保与标准仿真平台的兼容性。我们在各种室内场景中的检测/分割和铰接指标上实现了最先进的性能,证明了我们框架的有效性,并为可扩展的交互式场景生成提供了实践基础,从而降低了对铰接场景理解进行大规模研究的门槛。

🔬 方法详解

问题定义:论文旨在解决从静态3D场景中自动生成可交互的、具有铰接结构的3D场景的问题。现有方法需要大量人工标注,成本高昂,限制了数据集的规模和多样性。因此,如何以零样本的方式,自动地从静态场景中推断出可移动部件、关节类型和运动参数,是本研究要解决的核心问题。

核心思路:REACT3D的核心思路是通过一系列模块化的步骤,逐步地从静态场景中提取和推断出交互信息。首先检测和分割可移动的部件,然后估计这些部件的铰接类型和运动参数,接着补全隐藏的几何信息,最后将这些部件组装成一个可交互的场景。这种模块化的设计使得每个步骤都可以独立优化,并且可以灵活地组合不同的模块来适应不同的场景。

技术框架:REACT3D框架包含以下四个主要模块:(1) 可打开对象检测和分割:使用深度学习模型检测场景中潜在的可移动部件,并进行精确的分割。(2) 铰接估计:根据分割结果和几何信息,推断出每个部件的关节类型(如旋转、平移)和运动参数。(3) 隐藏几何补全:补全由于遮挡等原因而缺失的几何信息,保证场景的完整性。(4) 交互式对象组装:将各个部件按照估计的铰接关系组装成一个完整的、可交互的3D场景。

关键创新:REACT3D的关键创新在于其零样本的学习能力,即不需要任何人工标注的铰接信息,就可以自动地从静态场景中推断出交互信息。这种零样本的学习能力使得REACT3D可以应用于大规模的场景生成,大大降低了数据标注的成本。

关键设计:在可打开对象检测和分割模块中,使用了基于深度学习的分割模型,并针对3D场景的特点进行了优化。在铰接估计模块中,使用了基于几何约束和运动学模型的优化算法,以保证估计的准确性。在隐藏几何补全模块中,使用了基于深度学习的补全模型,并结合了场景的上下文信息。在交互式对象组装模块中,使用了基于物理引擎的仿真技术,以保证场景的交互性。

📊 实验亮点

REACT3D在各种室内场景中的检测/分割和铰接指标上实现了最先进的性能。该框架能够有效地从静态3D场景中提取可移动部件,并准确地估计其铰接类型和运动参数。实验结果表明,REACT3D在零样本学习方面具有显著优势,能够大大降低数据标注的成本。

🎯 应用场景

REACT3D技术可广泛应用于机器人仿真、虚拟现实、游戏开发等领域。它能够自动生成逼真的、可交互的3D场景,为机器人提供训练环境,为用户提供沉浸式的体验,并为游戏开发者提供丰富的资源。该技术有望加速具身智能的发展,并推动人机交互的进步。

📄 摘要(原文)

Interactive 3D scenes are increasingly vital for embodied intelligence, yet existing datasets remain limited due to the labor-intensive process of annotating part segmentation, kinematic types, and motion trajectories. We present REACT3D, a scalable zero-shot framework that converts static 3D scenes into simulation-ready interactive replicas with consistent geometry, enabling direct use in diverse downstream tasks. Our contributions include: (i) openable-object detection and segmentation to extract candidate movable parts from static scenes, (ii) articulation estimation that infers joint types and motion parameters, (iii) hidden-geometry completion followed by interactive object assembly, and (iv) interactive scene integration in widely supported formats to ensure compatibility with standard simulation platforms. We achieve state-of-the-art performance on detection/segmentation and articulation metrics across diverse indoor scenes, demonstrating the effectiveness of our framework and providing a practical foundation for scalable interactive scene generation, thereby lowering the barrier to large-scale research on articulated scene understanding. Our project page is https://react3d.github.io/