Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

作者: Lihe Ding, Shaocong Dong, Zhanpeng Huang, Zibin Wang, Yiyuan Zhang, Kaixiong Gong, Dan Xu, Tianfan Xue

分类: cs.CV, cs.AI

发布日期: 2023-12-07

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出BiDiff双向扩散模型，融合2D和3D先验知识，提升文本到3D生成质量。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到3D生成 双向扩散 3D先验 2D先验 扩散模型 几何保真度 纹理生成

📋 核心要点

现有3D生成方法依赖2D基础模型投影或多视角数据集微调，缺乏明确的3D先验，易产生几何异常和多视角不一致。
BiDiff框架融合3D和2D扩散过程，利用双向引导机制弥合两者差异，兼顾3D几何保真度和2D纹理丰富度。
BiDiff可作为优化方法初始化，显著提升3D模型质量和生成效率，并将生成时间从3.4小时缩短至20分钟。

📝 摘要（中文）

本文提出了一种名为双向扩散(BiDiff)的统一框架，用于文本到3D的生成。该框架同时结合了3D和2D扩散过程，分别保留了3D模型的几何保真度和2D纹理的丰富性。为了避免简单组合可能导致的不一致性，论文进一步提出了新颖的双向引导机制来桥接这两个过程。此外，该方法还可以作为优化模型的初始化，从而提高3D模型的质量和优化效率，将生成过程从3.4小时缩短到20分钟。实验结果表明，该模型实现了高质量、多样化和可扩展的3D生成。

🔬 方法详解

问题定义：现有文本到3D生成方法主要存在两个痛点。一是基于2D扩散模型的方法，虽然纹理丰富，但缺乏3D先验，容易出现几何失真和多视角不一致。二是直接在3D数据集上训练的方法，虽然几何结构较好，但由于3D数据集的纹理多样性有限，导致生成的纹理质量不高。

核心思路：BiDiff的核心思路是同时利用2D和3D的先验知识，通过两个扩散过程分别生成高质量的纹理和几何结构。为了解决两个扩散过程可能产生的不一致性，论文提出了双向引导机制，使得两个过程相互影响，最终生成一致的3D模型。

技术框架：BiDiff框架包含两个主要的扩散过程：一个是在2D图像空间进行的扩散过程，负责生成高质量的纹理；另一个是在3D体素空间进行的扩散过程，负责生成准确的几何结构。这两个扩散过程通过双向引导机制进行连接，2D扩散过程引导3D扩散过程生成更符合纹理的几何结构，3D扩散过程引导2D扩散过程生成与几何结构一致的纹理。

关键创新：BiDiff最重要的创新点在于提出了双向引导机制，它能够有效地融合2D和3D的先验知识，避免了简单组合可能导致的不一致性。与现有方法相比，BiDiff能够生成更高质量、更逼真的3D模型。

关键设计：论文使用了Score Distillation Sampling (SDS) loss来指导2D扩散过程，并使用3D数据集训练3D扩散过程。双向引导机制通过交叉注意力机制实现，2D扩散过程生成的特征图作为query，3D扩散过程生成的特征图作为key和value，反之亦然。此外，论文还使用了优化方法对生成的3D模型进行进一步优化，以提高模型的质量。

📊 实验亮点

实验结果表明，BiDiff在3D模型生成质量和效率方面均优于现有方法。通过双向扩散和引导，BiDiff能够生成具有高质量纹理和准确几何结构的3D模型。此外，BiDiff还可以作为优化方法的初始化，将生成时间从3.4小时缩短到20分钟，显著提高了生成效率。

🎯 应用场景

BiDiff在游戏开发、虚拟现实、增强现实、工业设计等领域具有广泛的应用前景。它可以根据文本描述快速生成高质量的3D模型，降低了3D内容创作的门槛，提高了创作效率。未来，该技术有望应用于个性化定制、智能制造等领域，为用户提供更加便捷、高效的3D内容生成服务。

📄 摘要（原文）

Most 3D generation research focuses on up-projecting 2D foundation models into the 3D space, either by minimizing 2D Score Distillation Sampling (SDS) loss or fine-tuning on multi-view datasets. Without explicit 3D priors, these methods often lead to geometric anomalies and multi-view inconsistency. Recently, researchers have attempted to improve the genuineness of 3D objects by directly training on 3D datasets, albeit at the cost of low-quality texture generation due to the limited texture diversity in 3D datasets. To harness the advantages of both approaches, we propose Bidirectional Diffusion(BiDiff), a unified framework that incorporates both a 3D and a 2D diffusion process, to preserve both 3D fidelity and 2D texture richness, respectively. Moreover, as a simple combination may yield inconsistent generation results, we further bridge them with novel bidirectional guidance. In addition, our method can be used as an initialization of optimization-based models to further improve the quality of 3D model and efficiency of optimization, reducing the generation process from 3.4 hours to 20 minutes. Experimental results have shown that our model achieves high-quality, diverse, and scalable 3D generation. Project website: https://bidiff.github.io/.

Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册