Procedural Scene Programs for Open-Universe Scene Generation: LLM-Free Error Correction via Program Search
作者: Maxim Gumin, Do Heon Han, Seung Jean Yoo, Aditya Ganeshan, R. Kenny Jones, Kailiang Fu, Rio Aguina-Kang, Stewart Morris, Daniel Ritchie
分类: cs.GR
发布日期: 2025-10-17
备注: To appear in SIGGRAPH Asia 2025
💡 一句话要点
提出基于程序搜索的场景程序生成方法,无需LLM即可进行错误校正,用于开放域场景生成。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D场景生成 程序化生成 命令式编程 错误校正 开放域 场景布局 程序搜索
📋 核心要点
- 现有3D场景生成方法依赖LLM生成对象间约束,计算成本高且难以处理复杂场景。
- 本文提出一种命令式场景生成方法,通过迭代放置对象并进行错误校正,简化场景描述并提高鲁棒性。
- 实验表明,本文方法生成的布局更符合人类偏好,且提出了一种与人类偏好一致的自动化评估指标。
📝 摘要(中文)
本文提出了一种用于从开放词汇文本描述中合成3D场景的方法。该方法的核心在于布局生成,即给定一组对象,如何根据输入描述进行布局。与现有方法采用的声明式范式(使用LLM生成对象间约束,然后求解约束)不同,本文探索了一种命令式范式,通过LLM迭代地放置对象,每个对象的位置和方向都作为先前放置对象的函数来计算。这种命令式方法简化了场景规范语言,并能处理更广泛和更复杂的场景。此外,本文还开发了一种错误校正机制,迭代地改进场景的有效性,同时尽可能接近LLM生成的原始布局,从而提高了命令式方案的鲁棒性。在强制选择感知研究中,与两种声明式布局生成方法相比,参与者更喜欢本文的命令式方法生成的布局,偏好率分别为82%和94%。本文还提出了一种简单的、自动化的3D场景布局生成评估指标,该指标与人类偏好高度一致。
🔬 方法详解
问题定义:现有3D场景布局生成方法主要采用声明式范式,依赖大型语言模型(LLM)生成对象之间的约束关系,然后通过求解这些约束来生成最终布局。这种方法的痛点在于:一是LLM的计算成本高昂;二是难以处理复杂场景,因为约束关系的表达能力有限;三是生成的布局可能不符合人类的直观感受。
核心思路:本文的核心思路是采用一种命令式范式来生成3D场景布局。与声明式范式不同,命令式范式通过一系列指令来逐步构建场景,每个指令负责放置一个对象,并根据已放置的对象来确定其位置和方向。这种方法简化了场景描述语言,并能更好地控制场景的生成过程。此外,本文还引入了一种错误校正机制,用于迭代地改进场景的有效性,使其更符合物理规律和人类的直观感受。
技术框架:本文提出的技术框架主要包括以下几个模块:1) LLM:用于生成初始的场景布局程序,该程序包含一系列放置对象的指令。2) 场景执行器:用于执行场景布局程序,将对象放置到场景中。3) 错误检测器:用于检测场景中存在的错误,例如对象之间的碰撞或违反物理规律的情况。4) 错误校正器:用于根据错误检测器的结果,对场景布局程序进行修改,以消除错误。整个流程是一个迭代的过程,直到场景中的错误被消除或达到预定的迭代次数。
关键创新:本文最重要的技术创新点在于提出了一种基于程序搜索的错误校正机制,该机制无需LLM即可对场景布局程序进行优化。具体来说,该机制通过搜索不同的程序变体,并评估其生成的场景的有效性,从而找到最佳的程序变体。这种方法避免了直接使用LLM进行错误校正,降低了计算成本,并提高了校正的效率。
关键设计:在场景执行器中,每个对象的位置和方向都由一个函数来计算,该函数的输入是已放置的对象。这些函数可以是简单的数学公式,也可以是复杂的神经网络。在错误校正器中,本文采用了一种基于遗传算法的程序搜索方法。该方法将场景布局程序编码为染色体,并通过交叉和变异等操作来生成新的程序变体。然后,通过评估这些变体生成的场景的有效性,来选择最佳的程序变体。
📊 实验亮点
实验结果表明,与两种声明式布局生成方法相比,参与者更喜欢本文的命令式方法生成的布局,偏好率分别为82%和94%。此外,本文提出的自动化评估指标与人类偏好高度一致,表明该指标可以有效地评估3D场景布局的质量。这些结果验证了本文方法的有效性和优越性。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、机器人导航等领域。例如,可以根据文本描述自动生成VR场景,提高VR内容的创作效率;可以用于游戏中的场景生成,丰富游戏内容;可以为机器人提供场景理解能力,使其能够在复杂环境中进行导航和操作。未来,该技术有望进一步发展,实现更逼真、更智能的3D场景生成。
📄 摘要(原文)
Synthesizing 3D scenes from open-vocabulary text descriptions is a challenging, important, and recently-popular application. One of its critical subproblems is layout generation: given a set of objects, lay them out to produce a scene matching the input description. Nearly all recent work adopts a declarative paradigm for this problem: using an LLM to generate a specification of constraints between objects, then solving those constraints to produce the final layout. In contrast, we explore an alternative imperative paradigm, in which an LLM iteratively places objects, with each object's position and orientation computed as a function of previously-placed objects. The imperative approach allows for a simpler scene specification language while also handling a wider variety and larger complexity of scenes. We further improve the robustness of our imperative scheme by developing an error correction mechanism that iteratively improves the scene's validity while staying as close as possible to the original layout generated by the LLM. In forced-choice perceptual studies, participants preferred layouts generated by our imperative approach 82% and 94% of the time when compared against two declarative layout generation methods. We also present a simple, automated evaluation metric for 3D scene layout generation that aligns well with human preferences.