DivAS: Interactive 3D Segmentation of NeRFs via Depth-Weighted Voxel Aggregation
作者: Ayush Pande
分类: cs.CV
发布日期: 2026-01-08
💡 一句话要点
DivAS:提出一种基于深度加权体素聚合的NeRF交互式3D分割方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: NeRF分割 交互式分割 深度学习 体素聚合 CUDA加速
📋 核心要点
- 现有NeRF分割方法依赖优化,计算成本高,且无法直接利用2D预训练模型的强大能力。
- DivAS通过交互式GUI,结合用户提示和NeRF深度信息,快速生成高质量的3D分割结果,无需优化。
- 实验表明,DivAS在分割质量上与优化方法相当,但速度更快,尤其是在交互式场景下优势明显。
📝 摘要(中文)
现有的NeRF分割方法通常基于优化,需要耗时的逐场景训练,牺牲了2D基础模型的零样本能力。我们提出了DivAS(Depth-interactive Voxel Aggregation Segmentation),一个无需优化、完全交互式的框架,旨在解决这些局限性。我们的方法通过快速的GUI工作流程运行,其中从用户点提示生成的2D SAM掩码,通过NeRF导出的深度先验进行细化,以提高几何精度和前景-背景分离效果。我们的核心贡献是一个定制的CUDA内核,可在200毫秒内将这些细化的多视图掩码聚合到统一的3D体素网格中,从而实现实时的视觉反馈。这种无需优化的设计消除了逐场景训练的需求。在Mip-NeRF 360°和LLFF上的实验表明,DivAS实现了与基于优化的方法相当的分割质量,同时端到端速度提高了2-2.5倍,如果排除用户提示时间,速度提高了高达一个数量级。
🔬 方法详解
问题定义:现有的NeRF分割方法,例如基于优化的方法,需要针对每个场景进行训练,计算成本高昂,并且无法充分利用2D基础模型(如SAM)的零样本泛化能力。这些方法在交互式场景中效率低下,用户难以快速获得满意的分割结果。
核心思路:DivAS的核心思路是利用NeRF渲染的深度信息作为先验,指导2D分割结果在3D空间中的聚合。通过用户在2D图像上的交互式提示,生成初始分割掩码,然后利用深度信息将这些掩码投影到3D体素网格中,从而实现快速、准确的3D分割。这种方法避免了耗时的优化过程,并能有效利用2D分割模型的优势。
技术框架:DivAS的整体框架包含以下几个主要步骤:1) 用户在2D图像上提供点提示;2) 使用SAM等2D分割模型生成初始分割掩码;3) 利用NeRF渲染的深度图,将2D掩码反投影到3D体素网格中;4) 使用自定义CUDA内核,对体素网格中的掩码进行聚合,生成最终的3D分割结果;5) 将分割结果可视化,并允许用户进行迭代式调整。
关键创新:DivAS的关键创新在于其无需优化的设计和深度加权体素聚合方法。通过将2D分割结果与NeRF深度信息相结合,DivAS能够在保证分割质量的同时,显著提高分割速度。此外,自定义的CUDA内核实现了快速的体素聚合,使得交互式分割成为可能。
关键设计:DivAS的关键设计包括:1) 使用SAM等预训练的2D分割模型,以获得良好的初始分割结果;2) 利用NeRF渲染的深度图,提供准确的几何先验;3) 设计深度加权函数,根据深度值对体素进行加权,以提高分割精度;4) 实现高效的CUDA内核,加速体素聚合过程。具体的深度加权函数和体素聚合策略等细节,论文中可能包含更详细的描述(未知)。
📊 实验亮点
DivAS在Mip-NeRF 360°和LLFF数据集上进行了实验,结果表明其分割质量与基于优化的方法相当,但端到端速度提高了2-2.5倍。如果排除用户提示时间,速度提高了高达一个数量级。这表明DivAS在交互式场景中具有显著的优势,能够为用户提供实时的分割反馈。
🎯 应用场景
DivAS可应用于各种需要对NeRF场景进行3D分割的领域,例如:虚拟现实/增强现实内容创作、机器人导航、3D场景编辑、以及遥感图像分析等。该方法能够帮助用户快速、准确地分割NeRF场景中的目标物体,从而简化相关任务的流程,提高工作效率,并为后续的场景理解和操作提供基础。
📄 摘要(原文)
Existing methods for segmenting Neural Radiance Fields (NeRFs) are often optimization-based, requiring slow per-scene training that sacrifices the zero-shot capabilities of 2D foundation models. We introduce DivAS (Depth-interactive Voxel Aggregation Segmentation), an optimization-free, fully interactive framework that addresses these limitations. Our method operates via a fast GUI-based workflow where 2D SAM masks, generated from user point prompts, are refined using NeRF-derived depth priors to improve geometric accuracy and foreground-background separation. The core of our contribution is a custom CUDA kernel that aggregates these refined multi-view masks into a unified 3D voxel grid in under 200ms, enabling real-time visual feedback. This optimization-free design eliminates the need for per-scene training. Experiments on Mip-NeRF 360° and LLFF show that DivAS achieves segmentation quality comparable to optimization-based methods, while being 2-2.5x faster end-to-end, and up to an order of magnitude faster when excluding user prompting time.