HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images

作者: Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Jean-Sébastien Franco, Grégory Rogez

分类: cs.CV, cs.AI, cs.HC, cs.LG, cs.RO

发布日期: 2025-08-22 (更新: 2025-08-25)

备注: 12 pages, 8 figures

💡 一句话要点

提出HOSt3R以解决无关键点手-物体3D重建问题

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 手-物体重建 3D重建 无关键点检测 多视图重建 人机交互 增强现实 虚拟现实

📋 核心要点

现有手-物体3D重建方法依赖关键点检测，难以处理复杂物体几何和遮挡问题。
本文提出HOSt3R，一个无关键点检测的手-物体3D变换估计方法，结合多视图重建。
HOSt3R在SHOWMe基准测试中表现优异，并在HO3D数据集上展示了良好的泛化能力。

📝 摘要（中文）

手-物体3D重建在机器人交互和沉浸式AR/VR体验中变得越来越重要。现有方法通常依赖于关键点检测技术，面临多样物体几何、弱纹理和相互遮挡等挑战，限制了其可扩展性和泛化能力。本文提出了一种无关键点检测的手-物体3D变换估计方法HOSt3R，结合多视图重建管道，能够准确恢复手-物体3D形状。该方法不依赖于预扫描的物体模板或相机内参，在SHOWMe基准测试中达到了最先进的性能，并在HO3D数据集上展示了对未见物体类别的泛化能力。

🔬 方法详解

问题定义：本文旨在解决手-物体3D重建中对关键点检测的依赖问题。现有方法在处理多样物体几何、弱纹理和相互遮挡时表现不佳，限制了其应用范围。

核心思路：HOSt3R通过直接从单目视频中估计手-物体3D变换，避免了关键点检测的复杂性，旨在实现无缝、非侵入式的3D重建。

技术框架：该方法包括两个主要阶段：首先从单目视频中提取手-物体的3D变换，然后将这些变换整合到多视图重建管道中，以恢复手-物体的3D形状。

关键创新：HOSt3R的最大创新在于其无关键点检测的设计，使其能够在没有预扫描物体模板或相机内参的情况下，进行高效的3D重建。这一设计显著提高了方法的可扩展性和泛化能力。

关键设计：在技术细节上，HOSt3R采用了特定的损失函数来优化3D变换估计，并设计了适应不同物体几何的网络结构，以增强其鲁棒性和准确性。该方法的参数设置经过精心调整，以确保在多种场景下的最佳性能。

📊 实验亮点

在SHOWMe基准测试中，HOSt3R达到了最先进的性能，显著优于现有方法。此外，在HO3D数据集上，该方法展示了对未见物体类别的良好泛化能力，验证了其广泛适用性。

🎯 应用场景

HOSt3R在人机交互、虚拟现实和增强现实等领域具有广泛的应用潜力。其无关键点检测的特性使得在复杂环境中进行实时3D重建成为可能，能够提升用户体验并推动相关技术的发展。

📄 摘要（原文）

Hand-object 3D reconstruction has become increasingly important for applications in human-robot interaction and immersive AR/VR experiences. A common approach for object-agnostic hand-object reconstruction from RGB sequences involves a two-stage pipeline: hand-object 3D tracking followed by multi-view 3D reconstruction. However, existing methods rely on keypoint detection techniques, such as Structure from Motion (SfM) and hand-keypoint optimization, which struggle with diverse object geometries, weak textures, and mutual hand-object occlusions, limiting scalability and generalization. As a key enabler to generic and seamless, non-intrusive applicability, we propose in this work a robust, keypoint detector-free approach to estimating hand-object 3D transformations from monocular motion video/images. We further integrate this with a multi-view reconstruction pipeline to accurately recover hand-object 3D shape. Our method, named HOSt3R, is unconstrained, does not rely on pre-scanned object templates or camera intrinsics, and reaches state-of-the-art performance for the tasks of object-agnostic hand-object 3D transformation and shape estimation on the SHOWMe benchmark. We also experiment on sequences from the HO3D dataset, demonstrating generalization to unseen object categories.

HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册