Instant4D: 4D Gaussian Splatting in Minutes

📄 arXiv: 2510.01119v1 📥 PDF

作者: Zhanpeng Luo, Haoxi Ran, Li Lu

分类: cs.CV

发布日期: 2025-10-01

备注: Accepted by NeurIPS 25

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

Instant4D:分钟级实现基于单目视频的4D高斯溅射动态场景重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 4D高斯溅射 动态场景重建 单目视频 深度视觉SLAM 实时渲染 神经渲染 快速重建

📋 核心要点

  1. 现有动态场景重建方法优化速度慢,且依赖精确的相机校准或深度传感器,限制了其在非受控环境下的应用。
  2. Instant4D利用原生4D高斯表示,结合深度视觉SLAM和网格剪枝,在保持几何完整性的前提下,显著减少模型冗余。
  3. 实验表明,Instant4D能以极快的速度(分钟级)从单目视频中重建动态场景,并在多个数据集上取得了有竞争力的性能。

📝 摘要(中文)

动态视角合成取得了显著进展,但从未经校准的、随意的视频中重建场景仍然具有挑战性,这主要是由于优化速度慢和参数估计复杂。本文提出了Instant4D,一个单目重建系统,它利用原生4D表示来高效处理随意的视频序列,无需校准相机或深度传感器,即可在几分钟内完成重建。该方法首先通过深度视觉SLAM进行几何恢复,然后进行网格剪枝以优化场景表示。我们的设计显著减少了冗余,同时保持了几何完整性,将模型大小减少到原始大小的10%以下。为了高效地处理时间动态,我们引入了一种简化的4D高斯表示,实现了30倍的加速,并将训练时间缩短到两分钟以内,同时在多个基准测试中保持了具有竞争力的性能。我们的方法可以在Dycheck数据集上或对于典型的200帧视频,在10分钟内重建单个视频。我们进一步将我们的模型应用于真实世界的视频,展示了其泛化能力。

🔬 方法详解

问题定义:现有动态场景重建方法,特别是基于神经辐射场(NeRF)的方法,通常需要大量的训练时间和计算资源,难以处理未经校准的、随意的单目视频。此外,这些方法通常需要精确的相机位姿估计或深度信息,限制了其在真实世界场景中的应用。现有方法的痛点在于重建速度慢、对相机参数敏感以及模型复杂度高。

核心思路:Instant4D的核心思路是利用4D高斯溅射表示动态场景,并结合高效的优化策略,从而在保证重建质量的同时,显著提高重建速度。通过深度视觉SLAM进行初始几何恢复,然后进行网格剪枝以减少冗余,最后使用简化的4D高斯表示来高效地处理时间动态。

技术框架:Instant4D的整体流程包括以下几个主要阶段:1) 使用深度视觉SLAM从单目视频中估计相机位姿和初始场景几何;2) 对初始场景进行网格剪枝,去除冗余的高斯粒子,减少模型大小;3) 使用简化的4D高斯表示来建模场景的时间动态,并通过优化高斯粒子的参数来重建动态场景。

关键创新:Instant4D最重要的技术创新点在于其简化的4D高斯表示,该表示能够高效地建模场景的时间动态,从而实现极快的重建速度。与传统的3D高斯溅射方法相比,Instant4D直接在4D空间中进行优化,避免了复杂的变形或运动建模过程。

关键设计:Instant4D的关键设计包括:1) 使用深度视觉SLAM(例如ORB-SLAM3)进行初始几何恢复;2) 基于几何信息进行网格剪枝,去除冗余的高斯粒子;3) 使用简化的4D高斯表示,其中每个高斯粒子都具有位置、旋转、缩放和颜色等参数,这些参数通过优化来拟合观测到的图像;4) 使用高效的优化算法(例如Adam)来优化高斯粒子的参数。

📊 实验亮点

Instant4D在Dycheck数据集上实现了快速的动态场景重建,单个视频的重建时间仅需10分钟,对于典型的200帧视频,重建时间也在10分钟以内。与现有方法相比,Instant4D实现了30倍的加速,同时在多个基准测试中保持了具有竞争力的性能。此外,Instant4D的模型大小仅为原始大小的10%以下,显著降低了存储和计算成本。

🎯 应用场景

Instant4D具有广泛的应用前景,例如:快速创建动态3D模型,用于游戏开发、虚拟现实和增强现实应用;从随意的视频中重建动态场景,用于电影制作和视觉特效;以及用于机器人导航和场景理解等领域。该技术能够降低动态场景重建的门槛,使得普通用户也能轻松地创建高质量的3D模型。

📄 摘要(原文)

Dynamic view synthesis has seen significant advances, yet reconstructing scenes from uncalibrated, casual video remains challenging due to slow optimization and complex parameter estimation. In this work, we present Instant4D, a monocular reconstruction system that leverages native 4D representation to efficiently process casual video sequences within minutes, without calibrated cameras or depth sensors. Our method begins with geometric recovery through deep visual SLAM, followed by grid pruning to optimize scene representation. Our design significantly reduces redundancy while maintaining geometric integrity, cutting model size to under 10% of its original footprint. To handle temporal dynamics efficiently, we introduce a streamlined 4D Gaussian representation, achieving a 30x speed-up and reducing training time to within two minutes, while maintaining competitive performance across several benchmarks. Our method reconstruct a single video within 10 minutes on the Dycheck dataset or for a typical 200-frame video. We further apply our model to in-the-wild videos, showcasing its generalizability. Our project website is published at https://instant4d.github.io/.