Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers

作者: Gangwei Xu, Haotong Lin, Hongcheng Luo, Xianqi Wang, Jingfeng Yao, Lianghui Zhu, Yuechuan Pu, Cheng Chi, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Sida Peng, Xin Yang

分类: cs.CV

发布日期: 2025-10-08 (更新: 2025-10-29)

备注: NeurIPS 2025. Project page: https://pixel-perfect-depth.github.io/

💡 一句话要点

提出基于语义提示扩散Transformer的像素级单目深度估计模型，生成高质量点云。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单目深度估计 扩散模型 Transformer 语义提示 点云生成

📋 核心要点

现有生成式深度估计模型依赖VAE压缩深度图，导致边缘出现悬浮像素等伪影。
论文提出在像素空间直接进行扩散生成，避免VAE引入的伪影，并设计语义提示扩散Transformer。
实验结果表明，该模型在多个基准测试中取得了最佳性能，尤其在边缘感知点云评估中优势明显。

📝 摘要（中文）

本文提出了一种名为Pixel-Perfect Depth的单目深度估计模型，该模型基于像素空间扩散生成，能够从估计的深度图中生成高质量、无悬浮像素的点云。现有的生成式深度估计模型通常微调Stable Diffusion，并取得了显著的性能。然而，它们需要使用VAE将深度图压缩到潜在空间，这不可避免地在边缘和细节处引入“悬浮像素”。我们的模型通过直接在像素空间中执行扩散生成来解决这一挑战，避免了VAE引入的伪影。为了克服与像素空间生成相关的高复杂度，我们引入了两项新设计：1) 语义提示扩散Transformer (SP-DiT)，它将来自视觉基础模型的语义表示融入DiT中，以提示扩散过程，从而在增强精细视觉细节的同时保持全局语义一致性；2) 级联DiT设计，它逐步增加token的数量，以进一步提高效率和准确性。我们的模型在五个基准测试中取得了所有已发表的生成模型中的最佳性能，并且在边缘感知点云评估中显著优于所有其他模型。

🔬 方法详解

问题定义：现有的生成式单目深度估计模型通常依赖于变分自编码器（VAE）将深度图压缩到潜在空间，然后再进行扩散生成。这种方法虽然有效，但VAE的压缩过程会在深度图的边缘和细节处引入伪影，表现为“悬浮像素”，影响了点云的质量。因此，需要一种方法能够在不依赖VAE的情况下，生成高质量的深度图和点云。

核心思路：本文的核心思路是在像素空间直接进行扩散生成，避免VAE引入的伪影。为了克服像素空间生成带来的高计算复杂度，论文提出了语义提示扩散Transformer（SP-DiT）和级联DiT设计。SP-DiT利用视觉基础模型的语义信息来引导扩散过程，从而在保持全局语义一致性的同时，增强精细的视觉细节。级联DiT设计则通过逐步增加token的数量，提高生成效率和精度。

技术框架：该模型主要包含以下几个模块：1) 语义编码器：利用视觉基础模型提取输入图像的语义特征。2) 语义提示扩散Transformer (SP-DiT)：将语义特征融入到DiT中，引导像素空间的扩散过程。3) 级联DiT：通过逐步增加token数量，提高生成效率和精度。整个流程是，首先输入单张图像，通过语义编码器提取语义特征，然后将语义特征作为提示输入到SP-DiT中，SP-DiT在像素空间进行扩散生成，并通过级联DiT逐步提高生成质量，最终输出高质量的深度图。

关键创新：该论文最重要的技术创新点在于：1) 在像素空间直接进行扩散生成，避免了VAE引入的伪影；2) 提出了语义提示扩散Transformer (SP-DiT)，利用视觉基础模型的语义信息来引导扩散过程。与现有方法的本质区别在于，该方法不再依赖VAE进行深度图的压缩和解压缩，而是直接在像素空间进行生成，从而避免了信息损失和伪影的产生。

关键设计：SP-DiT的关键设计在于如何将语义信息有效地融入到DiT中。具体来说，论文将视觉基础模型提取的语义特征作为条件输入到DiT的Transformer块中，通过注意力机制将语义信息与像素特征进行融合。级联DiT的关键设计在于如何逐步增加token的数量，以提高生成效率和精度。论文采用了一种金字塔式的结构，从低分辨率到高分辨率逐步增加token数量，从而在保证生成质量的同时，降低计算复杂度。

📊 实验亮点

该模型在五个基准测试中取得了所有已发表的生成模型中的最佳性能，并且在边缘感知点云评估中显著优于所有其他模型。具体来说，该模型生成的点云在边缘区域的精度得到了显著提升，有效减少了悬浮像素的数量。实验结果表明，该模型在深度估计的精度和点云质量方面都取得了显著的进步。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、三维重建、虚拟现实等领域。高质量的深度估计对于这些应用至关重要，尤其是在需要精确感知环境几何结构的场景下。该模型生成的无悬浮像素点云可以提高三维重建的精度，从而提升相关应用的性能和可靠性。未来，该技术有望进一步推动这些领域的发展。

📄 摘要（原文）

This paper presents Pixel-Perfect Depth, a monocular depth estimation model based on pixel-space diffusion generation that produces high-quality, flying-pixel-free point clouds from estimated depth maps. Current generative depth estimation models fine-tune Stable Diffusion and achieve impressive performance. However, they require a VAE to compress depth maps into latent space, which inevitably introduces \textit{flying pixels} at edges and details. Our model addresses this challenge by directly performing diffusion generation in the pixel space, avoiding VAE-induced artifacts. To overcome the high complexity associated with pixel-space generation, we introduce two novel designs: 1) Semantics-Prompted Diffusion Transformers (SP-DiT), which incorporate semantic representations from vision foundation models into DiT to prompt the diffusion process, thereby preserving global semantic consistency while enhancing fine-grained visual details; and 2) Cascade DiT Design that progressively increases the number of tokens to further enhance efficiency and accuracy. Our model achieves the best performance among all published generative models across five benchmarks, and significantly outperforms all other models in edge-aware point cloud evaluation.

Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册