Sphinx: Efficiently Serving Novel View Synthesis using Regression-Guided Selective Refinement

作者: Yuchen Xia, Souvik Kundu, Mosharaf Chowdhury, Nishil Talati

分类: cs.CV

发布日期: 2025-11-24

💡 一句话要点

Sphinx：提出一种基于回归引导选择性优化的高效新视角合成框架

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 新视角合成 扩散模型 回归模型 选择性优化 自适应噪声调度

📋 核心要点

扩散模型NVS质量高但计算量大，回归模型NVS计算量小但质量差，如何兼顾质量与效率是核心问题。
Sphinx利用回归模型快速初始化，引导并减少扩散模型的去噪负担，实现高效高质量的NVS。
Sphinx通过选择性优化和自适应噪声调度，将计算资源集中于不确定区域，进一步提升效率。

📝 摘要（中文）

新视角合成(NVS)的任务是从未包含在原始输入中的视点生成场景的新图像。基于扩散的NVS可以生成高质量、时间上一致的图像，但计算成本仍然过高。相反，基于回归的NVS虽然计算量显著降低，但生成质量欠佳；因此，设计一个高质量、推理高效的NVS框架仍然是一个开放的挑战。为了弥合这一关键差距，我们提出了Sphinx，这是一个无需训练的混合推理框架，以显著降低的计算量实现了扩散级别的保真度。Sphinx建议使用基于回归的快速初始化来引导和减少扩散模型的去噪工作量。此外，它集成了选择性优化与自适应噪声调度，允许更多计算用于不确定的区域和帧。这使得Sphinx能够灵活地调整性能-质量的权衡，从而适应动态变化的推理场景的延迟和保真度要求。我们的评估表明，Sphinx在扩散模型推理上的平均加速比为1.8倍，而感知质量的下降可忽略不计，小于5%，从而在新视角合成服务中建立了一个新的质量和延迟之间的帕累托前沿。

🔬 方法详解

问题定义：论文旨在解决新视角合成（NVS）中，基于扩散模型的方法计算成本高昂，而基于回归模型的方法生成质量不足的问题。现有方法的痛点在于无法在推理效率和生成质量之间取得良好的平衡，难以满足实际应用中对延迟和保真度的双重需求。

核心思路：论文的核心解决思路是结合回归模型和扩散模型的优势，利用回归模型进行快速初始化，为扩散模型提供良好的先验信息，从而减少扩散模型的计算负担。同时，通过选择性优化和自适应噪声调度，将计算资源集中于需要精细化处理的区域，进一步提升效率。

技术框架：Sphinx框架包含以下主要模块：1) 基于回归模型的快速初始化模块，用于生成初始的新视角图像；2) 基于扩散模型的选择性优化模块，用于对初始图像进行精细化处理；3) 自适应噪声调度模块，用于根据图像区域的不确定性动态调整噪声水平。整体流程是先通过回归模型快速生成初始图像，然后利用扩散模型对图像进行选择性优化，并根据图像区域的不确定性动态调整噪声水平，最终生成高质量的新视角图像。

关键创新：最重要的技术创新点在于提出了回归引导的选择性优化策略。与传统的扩散模型NVS方法相比，Sphinx不是对整张图像进行均匀的去噪，而是根据回归模型提供的先验信息，选择性地对图像中不确定性较高的区域进行精细化处理。这种策略可以显著减少扩散模型的计算量，同时保证生成图像的质量。

关键设计：Sphinx的关键设计包括：1) 回归模型的选择，可以使用任何现有的快速NVS方法；2) 选择性优化区域的确定，可以通过计算回归模型输出的不确定性来确定；3) 自适应噪声调度策略，可以根据图像区域的不确定性动态调整噪声水平，例如，对不确定性较高的区域使用较低的噪声水平，对确定性较高的区域使用较高的噪声水平。

📊 实验亮点

实验结果表明，Sphinx在扩散模型推理上的平均加速比为1.8倍，而感知质量的下降可忽略不计，小于5%。这表明Sphinx能够在保证生成质量的前提下，显著提升新视角合成的效率，建立了一个新的质量和延迟之间的帕累托前沿。与直接使用扩散模型相比，Sphinx在速度上有显著提升。

🎯 应用场景

Sphinx适用于需要实时或近实时新视角合成的应用场景，例如虚拟现实、增强现实、自动驾驶、游戏等。该框架能够以较低的计算成本生成高质量的新视角图像，为用户提供更加流畅和逼真的体验。未来，该研究可以进一步扩展到动态场景的新视角合成，以及与其他计算机视觉任务的结合。

📄 摘要（原文）

Novel View Synthesis (NVS) is the task of generating new images of a scene from viewpoints that were not part of the original input. Diffusion-based NVS can generate high-quality, temporally consistent images, however, remains computationally prohibitive. Conversely, regression-based NVS offers suboptimal generation quality despite requiring significantly lower compute; leaving the design objective of a high-quality, inference-efficient NVS framework an open challenge. To close this critical gap, we present Sphinx, a training-free hybrid inference framework that achieves diffusion-level fidelity at a significantly lower compute. Sphinx proposes to use regression-based fast initialization to guide and reduce the denoising workload for the diffusion model. Additionally, it integrates selective refinement with adaptive noise scheduling, allowing more compute to uncertain regions and frames. This enables Sphinx to provide flexible navigation of the performance-quality trade-off, allowing adaptation to latency and fidelity requirements for dynamically changing inference scenarios. Our evaluation shows that Sphinx achieves an average 1.8x speedup over diffusion model inference with negligible perceptual degradation of less than 5%, establishing a new Pareto frontier between quality and latency in NVS serving.

Sphinx: Efficiently Serving Novel View Synthesis using Regression-Guided Selective Refinement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册