Pixel-Perfect Visual Geometry Estimation
作者: Gangwei Xu, Haotong Lin, Hongcheng Luo, Haiyang Sun, Bing Wang, Guang Chen, Sida Peng, Hangjun Ye, Xin Yang
分类: cs.CV
发布日期: 2026-01-08
备注: Code: https://github.com/gangweix/pixel-perfect-depth
💡 一句话要点
提出Pixel-Perfect视觉几何模型,利用像素空间生成模型实现高质量、无飞点的点云重建。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 深度估计 点云重建 扩散模型 Transformer 语义提示 视频深度估计 几何建模
📋 核心要点
- 现有几何基础模型在点云重建中存在飞点和细节丢失问题,难以满足机器人和增强现实等应用的需求。
- 论文提出Pixel-Perfect Depth (PPD)模型,利用像素空间扩散Transformer,结合语义信息和级联架构,提升深度估计的质量和效率。
- 实验结果表明,该模型在单目和视频深度估计任务中均取得了领先性能,并生成了更干净的点云。
📝 摘要(中文)
本文提出像素级精确的视觉几何模型,旨在从图像中恢复干净且精确的几何结构,这对于机器人和增强现实至关重要。现有的几何基础模型在生成点云时,仍然存在严重的飞点问题,并且丢失精细的细节。为此,我们提出了Pixel-Perfect Depth (PPD)模型,这是一个基于像素空间扩散Transformer (DiT)的单目深度基础模型。为了解决像素空间扩散带来的高计算复杂度,我们提出了两个关键设计:1) 语义提示DiT,它结合了视觉基础模型的语义表示来提示扩散过程,在保留全局语义的同时增强了精细的视觉细节;2) 级联DiT架构,逐步增加图像token的数量,从而提高效率和准确性。为了进一步将PPD扩展到视频(PPVD),我们引入了一种新的语义一致DiT,它从多视图几何基础模型中提取时间上一致的语义。然后,我们在DiT中执行参考引导的token传播,以最小的计算和内存开销保持时间一致性。我们的模型在所有生成式单目和视频深度估计模型中都取得了最佳性能,并且比所有其他模型生成了明显更干净的点云。
🔬 方法详解
问题定义:论文旨在解决从单张图像或视频中恢复高质量、无飞点、细节丰富的点云几何结构的问题。现有方法,尤其是基于深度学习的几何基础模型,在生成点云时普遍存在飞点和细节丢失的缺陷,限制了其在机器人、增强现实等领域的应用。这些问题源于模型对图像细节的捕捉能力不足,以及缺乏对全局语义信息的有效利用。
核心思路:论文的核心思路是利用像素空间生成模型(Pixel-space Diffusion Transformer, DiT)的强大生成能力,直接在像素空间中生成高质量的深度图。通过引入语义信息作为先验,并采用级联架构逐步细化深度图,从而在保证全局语义一致性的同时,提升细节的重建质量,最终获得无飞点的点云。
技术框架:整体框架包含两个主要部分:Pixel-Perfect Depth (PPD)用于单目深度估计,Pixel-Perfect Video Depth (PPVD)用于视频深度估计。PPD基于像素空间扩散Transformer (DiT),并引入了语义提示模块和级联DiT架构。PPVD则在PPD的基础上,引入了语义一致性约束和参考引导的token传播机制,以保证视频帧之间的时间一致性。具体流程是:首先,使用视觉基础模型提取图像或视频帧的语义特征;然后,将语义特征作为提示输入到DiT中,引导扩散过程;最后,通过级联DiT逐步生成高分辨率的深度图。
关键创新:论文的关键创新在于以下几点:1) 将像素空间扩散模型应用于深度估计任务,充分利用了生成模型的强大表达能力;2) 提出了语义提示DiT,通过融合视觉基础模型的语义信息,有效提升了深度估计的质量和语义一致性;3) 提出了级联DiT架构,在保证效率的同时,逐步细化深度图,提升了细节重建能力;4) 针对视频深度估计,提出了语义一致性约束和参考引导的token传播机制,保证了时间一致性。
关键设计:语义提示DiT的关键设计在于如何有效地融合语义信息。论文采用了一种简单的拼接方式,将视觉基础模型提取的语义特征与DiT的输入特征进行拼接。级联DiT架构的关键设计在于如何逐步增加图像token的数量。论文采用了一种金字塔式的结构,从低分辨率到高分辨率逐步增加token的数量。PPVD中的参考引导token传播机制的关键设计在于如何选择参考帧。论文选择与当前帧最相似的帧作为参考帧,并利用光流估计进行token传播。
📊 实验亮点
实验结果表明,PPD和PPVD模型在单目和视频深度估计任务中均取得了state-of-the-art的性能。与现有方法相比,该模型生成的点云具有更少的飞点和更丰富的细节。例如,在KITTI数据集上,PPD模型在深度估计精度上取得了显著提升,并且在视觉效果上明显优于其他方法。
🎯 应用场景
该研究成果可广泛应用于机器人导航、增强现实、三维重建、自动驾驶等领域。高质量的点云数据能够提升机器人对环境的感知能力,增强AR/VR应用的沉浸感,为自动驾驶提供更可靠的环境信息。未来,该技术有望进一步扩展到其他视觉几何任务,例如表面法向量估计、场景流估计等。
📄 摘要(原文)
Recovering clean and accurate geometry from images is essential for robotics and augmented reality. However, existing geometry foundation models still suffer severely from flying pixels and the loss of fine details. In this paper, we present pixel-perfect visual geometry models that can predict high-quality, flying-pixel-free point clouds by leveraging generative modeling in the pixel space. We first introduce Pixel-Perfect Depth (PPD), a monocular depth foundation model built upon pixel-space diffusion transformers (DiT). To address the high computational complexity associated with pixel-space diffusion, we propose two key designs: 1) Semantics-Prompted DiT, which incorporates semantic representations from vision foundation models to prompt the diffusion process, preserving global semantics while enhancing fine-grained visual details; and 2) Cascade DiT architecture that progressively increases the number of image tokens, improving both efficiency and accuracy. To further extend PPD to video (PPVD), we introduce a new Semantics-Consistent DiT, which extracts temporally consistent semantics from a multi-view geometry foundation model. We then perform reference-guided token propagation within the DiT to maintain temporal coherence with minimal computational and memory overhead. Our models achieve the best performance among all generative monocular and video depth estimation models and produce significantly cleaner point clouds than all other models.