Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image

📄 arXiv: 2506.21152v3 📥 PDF

作者: Pufan Li, Bi'an Du, Wei Hu

分类: cs.CV

发布日期: 2025-06-26 (更新: 2025-10-18)

备注: 10 pages, 5 figures


💡 一句话要点

提出几何与感知引导的高斯模型以解决单图生成3D一致性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D生成 高斯模型 多视图一致性 几何信息 感知先验 深度学习 图像重建

📋 核心要点

  1. 现有方法在多视图一致性和几何细节捕捉方面存在显著不足,导致生成的3D物体质量不高。
  2. 提出了一种新方法,通过几何和感知先验的结合,优化高斯分支的参数,重建高质量的3D物体。
  3. 实验结果显示,该方法在新视图合成和3D重建任务中表现优异,超越了多种基线方法。

📝 摘要(中文)

从单视图图像生成逼真的3D物体需要自然的外观、3D一致性以及捕捉未见区域的多种合理解释。现有方法通常依赖于微调预训练的2D扩散模型或通过快速网络推理直接生成3D信息,但其结果通常存在多视图一致性差和几何细节不足的问题。为了解决这些问题,本文提出了一种新颖的方法,能够无须额外模型训练,利用几何和感知信息无缝集成,重建详细的3D物体。具体而言,我们结合几何和感知先验来初始化高斯分支并指导其参数优化。实验结果表明,我们在新视图合成和3D重建上超越了现有方法,展示了稳健且一致的3D物体生成能力。

🔬 方法详解

问题定义:本文旨在解决从单视图图像生成一致且细致的3D物体的问题。现有方法在多视图一致性和几何细节方面表现不佳,导致生成的3D物体缺乏真实感和准确性。

核心思路:本研究的核心思路是结合几何和感知先验信息,以优化高斯分支的参数,从而在不需要额外训练的情况下重建高质量的3D物体。几何先验用于捕捉粗略的3D形状,而感知先验则利用预训练的2D扩散模型来增强多视图信息。

技术框架:整体架构包括几个主要模块:首先,通过几何和感知先验初始化高斯分支;其次,采用稳定的得分蒸馏采样方法进行细粒度的先验蒸馏;最后,使用基于重投影的策略来强制深度一致性。

关键创新:最重要的技术创新在于无缝集成几何与感知信息,避免了额外的模型训练,同时引入了稳定的得分蒸馏采样以确保有效的知识转移。这与现有方法的本质区别在于其对多视图一致性和几何细节的关注。

关键设计:关键设计包括高斯分支的初始化方式、损失函数的选择以及重投影策略的实现。这些设计确保了生成的3D物体在视觉和几何上都具有较高的一致性和细节表现。

📊 实验亮点

实验结果表明,本文方法在新视图合成和3D重建任务中显著优于现有方法,具体性能提升幅度达到XX%(具体数据需根据实验结果补充),展示了其在多视图一致性和几何细节捕捉方面的优势。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、增强现实和游戏开发等,需要高质量3D模型生成的场景。通过提供更一致和细致的3D物体生成能力,能够显著提升用户体验和视觉效果。此外,该方法的创新思路可能对未来的3D生成技术产生深远影响。

📄 摘要(原文)

Generating realistic 3D objects from single-view images requires natural appearance, 3D consistency, and the ability to capture multiple plausible interpretations of unseen regions. Existing approaches often rely on fine-tuning pretrained 2D diffusion models or directly generating 3D information through fast network inference or 3D Gaussian Splatting, but their results generally suffer from poor multiview consistency and lack geometric detail. To tackle these issues, we present a novel method that seamlessly integrates geometry and perception information without requiring additional model training to reconstruct detailed 3D objects from a single image. Specifically, we incorporate geometry and perception priors to initialize the Gaussian branches and guide their parameter optimization. The geometry prior captures the rough 3D shapes, while the perception prior utilizes the 2D pretrained diffusion model to enhance multiview information. Subsequently, we introduce a stable Score Distillation Sampling for fine-grained prior distillation to ensure effective knowledge transfer. The model is further enhanced by a reprojection-based strategy that enforces depth consistency. Experimental results show that we outperform existing methods on novel view synthesis and 3D reconstruction, demonstrating robust and consistent 3D object generation.