InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields
作者: Hao Yu, Haotong Lin, Jiawei Wang, Jiaxin Li, Yida Wang, Xueyang Zhang, Yue Wang, Xiaowei Zhou, Ruizhen Hu, Sida Peng
分类: cs.CV
发布日期: 2026-01-06
备注: 19 pages, 13 figures
💡 一句话要点
InfiniDepth:提出基于神经隐式场的任意分辨率精细深度估计方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 深度估计 神经隐式场 任意分辨率 精细深度 新视角合成
📋 核心要点
- 现有深度估计方法受限于在离散图像网格上预测深度,限制了其对任意输出分辨率的扩展能力和几何细节的恢复。
- InfiniDepth将深度表示为神经隐式场,通过局部隐式解码器在连续坐标上查询深度,实现任意分辨率和精细深度估计。
- 实验表明,InfiniDepth在合成和真实数据集上均达到SOTA,尤其在精细区域表现突出,并改善了新视角合成效果。
📝 摘要(中文)
本文提出了一种名为InfiniDepth的深度估计方法,它将深度表示为神经隐式场。通过一个简单而有效的局部隐式解码器,InfiniDepth能够在连续的2D坐标上查询深度,从而实现任意分辨率和精细的深度估计。为了更好地评估该方法的能力,作者从五个不同的游戏中收集并整理了一个高质量的4K合成基准数据集,涵盖了具有丰富几何和外观细节的各种场景。大量的实验表明,InfiniDepth在相对和度量深度估计任务的合成和真实世界基准上都取得了最先进的性能,尤其是在精细细节区域表现出色。它还有利于大视点变换下的新视角合成任务,产生高质量的结果,减少了空洞和伪影。
🔬 方法详解
问题定义:现有深度估计方法通常在离散的像素网格上预测深度值,这限制了它们生成任意分辨率深度图的能力,并且难以捕捉精细的几何细节。这种离散化表示方式阻碍了深度估计在需要高精度和灵活性的应用中的发展。
核心思路:InfiniDepth的核心思想是将深度信息表示为一个连续的神经隐式场。通过学习一个函数,该函数可以将任意2D坐标映射到对应的深度值,从而避免了离散化带来的限制。这种连续表示允许在任意分辨率下查询深度,并能够更好地捕捉精细的几何细节。
技术框架:InfiniDepth的整体框架包括一个特征提取网络(例如ResNet)用于提取输入图像的特征,然后使用一个局部隐式解码器将图像特征和2D坐标作为输入,预测该坐标对应的深度值。该解码器通常是一个小型多层感知机(MLP)。在训练过程中,使用深度图作为监督信号,优化整个网络。
关键创新:InfiniDepth的关键创新在于使用神经隐式场来表示深度信息,并设计了一个局部隐式解码器来实现连续的深度查询。与传统的离散深度图表示相比,这种方法能够生成任意分辨率的深度图,并更好地捕捉精细的几何细节。此外,局部隐式解码器的设计使得网络能够更好地学习局部特征和深度之间的关系。
关键设计:局部隐式解码器通常由几个全连接层组成,输入包括图像特征和2D坐标。损失函数通常采用L1或L2损失,用于衡量预测深度和真实深度之间的差异。为了提高训练效率和泛化能力,可以使用数据增强技术,例如随机裁剪、旋转和缩放。此外,还可以使用正则化技术来防止过拟合。
🖼️ 关键图片
📊 实验亮点
InfiniDepth在自建的4K合成数据集和真实世界数据集上均取得了SOTA性能。在精细细节区域,InfiniDepth的深度估计精度显著优于现有方法。此外,InfiniDepth还改善了新视角合成的效果,减少了空洞和伪影,生成了更高质量的图像。实验结果表明,InfiniDepth在深度估计和相关任务中具有显著的优势。
🎯 应用场景
InfiniDepth具有广泛的应用前景,包括三维重建、虚拟现实、增强现实、自动驾驶等领域。其任意分辨率和精细深度估计能力可以提高三维模型的精度和真实感,改善虚拟现实和增强现实的沉浸式体验,并为自动驾驶系统提供更准确的环境感知信息。该研究还有助于推动神经渲染和新视角合成等领域的发展。
📄 摘要(原文)
Existing depth estimation methods are fundamentally limited to predicting depth on discrete image grids. Such representations restrict their scalability to arbitrary output resolutions and hinder the geometric detail recovery. This paper introduces InfiniDepth, which represents depth as neural implicit fields. Through a simple yet effective local implicit decoder, we can query depth at continuous 2D coordinates, enabling arbitrary-resolution and fine-grained depth estimation. To better assess our method's capabilities, we curate a high-quality 4K synthetic benchmark from five different games, spanning diverse scenes with rich geometric and appearance details. Extensive experiments demonstrate that InfiniDepth achieves state-of-the-art performance on both synthetic and real-world benchmarks across relative and metric depth estimation tasks, particularly excelling in fine-detail regions. It also benefits the task of novel view synthesis under large viewpoint shifts, producing high-quality results with fewer holes and artifacts.