Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

📄 arXiv: 2603.02910v1 📥 PDF

作者: Hao Ai, Wenjie Chang, Jianbo Jiao, Ales Leonardis, Ofek Eyal

分类: cs.CV

发布日期: 2026-03-03

备注: Accepted by ICLR 2026. Project Page: https://haoai-1997.github.io/AiM/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出AiM框架,通过动态-静态解耦实现无先验知识的运动铰接物体部件分析

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 铰接物体 部件分割 运动分析 动态-静态解耦 3D重建 RANSAC 无先验知识

📋 核心要点

  1. 现有方法依赖于不同铰接状态和部件数量的先验知识,限制了其应用和鲁棒性,尤其是在物体在两种状态下都无法清晰可见时。
  2. AiM框架通过动态-静态解耦,从用户交互视频和初始扫描中学习双高斯场景表示,利用运动线索分割部件并估计运动学。
  3. 实验表明,AiM在没有先验知识的情况下,实现了高质量的部件分割和铰接分析,并在简单和复杂物体上表现出强大的泛化能力。

📝 摘要(中文)

本文提出了一种名为“运动铰接 (AiM)”的新框架,旨在实现高质量的重建、独立运动部件的分割以及铰接分析。该方法从用户与物体的交互视频和初始状态扫描中推断部件级分解、铰接运动学,并重建交互式3D数字副本。AiM采用双高斯场景表示,从物体的初始3DGS扫描和展示部件运动的视频中学习。它利用运动线索将物体分割成部件并分配铰接关节。随后,采用鲁棒的顺序RANSAC算法,在没有任何部件级结构先验知识的情况下实现部件运动分析,将运动图元聚类成刚性部件并估计运动学,同时自动确定部件数量。该方法将物体分离成多个部件,每个部件都表示为一个3D高斯集合,从而实现高质量的渲染。实验结果表明,该方法在没有先验知识的情况下,能够产生比以往方法更高质量的部件分割,并在简单和复杂物体上都验证了其有效性和强大的泛化能力。

🔬 方法详解

问题定义:现有铰接物体分析方法通常需要预先知道部件的数量,并且依赖于物体在不同铰接状态下的清晰可见性。这些假设限制了方法的应用范围和鲁棒性,尤其是在处理复杂物体或遮挡情况时。因此,需要一种无需先验知识,能够从单视角视频中准确分割部件并分析铰接运动的方法。

核心思路:AiM的核心思路是将铰接物体的运动分解为动态和静态两部分,并利用运动信息来指导部件分割和运动学估计。通过学习双高斯场景表示,区分运动和非运动区域,从而实现无先验知识的部件分割。顺序RANSAC算法用于鲁棒地估计每个部件的运动参数,并自动确定部件的数量。

技术框架:AiM框架包含以下几个主要阶段:1) 初始3DGS扫描:获取铰接物体的初始3D高斯表示。2) 动态-静态解耦:利用用户交互视频学习双高斯场景表示,区分运动和非运动区域。3) 部件分割:基于运动信息将物体分割成不同的部件。4) 运动学估计:使用顺序RANSAC算法估计每个部件的运动参数。5) 3D重建与渲染:基于分割和运动学信息重建铰接物体,并进行高质量渲染。

关键创新:AiM的关键创新在于:1) 无先验知识的部件分割:无需预先知道部件的数量或结构信息,通过动态-静态解耦实现部件分割。2) 双高斯场景表示:有效地表示了铰接物体的运动信息,并用于指导部件分割。3) 顺序RANSAC算法:鲁棒地估计每个部件的运动参数,并自动确定部件的数量。

关键设计:双高斯场景表示使用两个高斯分布分别表示静态和动态区域。运动信息的提取依赖于光流估计或其他运动跟踪算法。顺序RANSAC算法的关键参数包括RANSAC迭代次数、内点阈值等,这些参数需要根据具体场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AiM在部件分割质量方面优于现有方法,无需任何先验知识。在简单和复杂物体上都进行了广泛的实验,验证了AiM的有效性和强大的泛化能力。项目主页提供了更多实验细节和可视化结果。

🎯 应用场景

该研究成果可广泛应用于机器人操作、虚拟现实、增强现实、游戏开发等领域。例如,机器人可以利用该技术自动识别和操作铰接物体,虚拟现实和增强现实应用可以创建更逼真的交互式3D模型,游戏开发者可以更轻松地创建具有复杂运动机制的游戏角色。

📄 摘要(原文)

Articulated objects are ubiquitous in daily life. Our goal is to achieve a high-quality reconstruction, segmentation of independent moving parts, and analysis of articulation. Recent methods analyse two different articulation states and perform per-point part segmentation, optimising per-part articulation using cross-state correspondences, given a priori knowledge of the number of parts. Such assumptions greatly limit their applications and performance. Their robustness is reduced when objects cannot be clearly visible in both states. To address these issues, in this paper, we present a new framework, Articulation in Motion (AiM). We infer part-level decomposition, articulation kinematics, and reconstruct an interactive 3D digital replica from a user-object interaction video and a start-state scan. We propose a dual-Gaussian scene representation that is learned from an initial 3DGS scan of the object and a video that shows the movement of separate parts. It uses motion cues to segment the object into parts and assign articulation joints. Subsequently, a robust, sequential RANSAC is employed to achieve part mobility analysis without any part-level structural priors, which clusters moving primitives into rigid parts and estimates kinematics while automatically determining the number of parts. The proposed approach separates the object into parts, each represented as a 3D Gaussian set, enabling high-quality rendering. Our approach yields higher quality part segmentation than previous methods, without prior knowledge. Extensive experimental analysis on both simple and complex objects validates the effectiveness and strong generalisation ability of our approach. Project page: https://haoai-1997.github.io/AiM/.