VoxelCodeBench: Benchmarking 3D World Modeling Through Code Generation

📄 arXiv: 2604.02580 📥 PDF

作者: Yan Zheng, Florian Bordes

分类: cs.LG

发布日期: 2026-04-06


💡 一句话要点

VoxelCodeBench:通过代码生成评估3D世界建模能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 代码生成 3D建模 空间推理 基准测试 Unreal Engine

📋 核心要点

  1. 现有方法难以在真实环境中评估3D空间推理的代码生成模型,且评估标准通常只关注表面正确性。
  2. VoxelCode平台通过自然语言任务规范、API驱动的代码执行和统一评估流程,实现了对3D理解和环境创建代码生成能力的分析。
  3. VoxelCodeBench基准测试表明,代码生成模型在几何构造和多对象组合等空间推理任务中面临巨大挑战。

📝 摘要(中文)

本文提出了一个名为VoxelCode的平台,用于分析代码生成模型在3D理解和环境创建方面的能力。该平台集成了自然语言任务规范、Unreal Engine中基于API的代码执行以及统一的评估流程,支持自动化指标和人工评估。为了展示其效用,构建了VoxelCodeBench,这是一个体素操作任务的基准,涵盖三个推理维度:符号解释、几何构造和艺术创作。对领先的代码生成模型进行评估后发现,生成可执行代码远比生成空间上正确的输出容易,其中几何构造和多对象组合尤其具有挑战性。通过开源平台和基准,为社区提供了可扩展的基础设施,用于开发新的3D代码生成基准,并在未来的模型中探索空间推理。

🔬 方法详解

问题定义:论文旨在解决如何有效评估代码生成模型在3D空间推理能力的问题。现有方法主要存在两个痛点:一是缺乏在真实3D环境中执行和评估生成代码的平台;二是评估指标通常只关注代码的表面正确性,而忽略了其在3D空间中的实际效果。

核心思路:论文的核心思路是构建一个集成了自然语言任务描述、3D环境模拟和统一评估流程的平台,从而能够全面评估代码生成模型在3D空间理解和环境创建方面的能力。通过在Unreal Engine中执行生成的代码,并结合自动化指标和人工评估,可以更准确地衡量模型在3D空间中的推理能力。

技术框架:VoxelCode平台包含三个主要模块:1) 自然语言任务规范模块,用于定义3D环境创建任务;2) 代码执行模块,在Unreal Engine中执行生成的代码,并生成3D场景;3) 评估模块,使用自动化指标和人工评估来评估生成场景的质量。VoxelCodeBench是基于该平台构建的基准测试,包含一系列体素操作任务,涵盖符号解释、几何构造和艺术创作三个推理维度。

关键创新:论文的关键创新在于构建了一个完整的3D代码生成评估平台,该平台能够将自然语言任务转化为可执行的代码,并在真实的3D环境中进行评估。此外,VoxelCodeBench基准测试提供了一系列具有挑战性的3D空间推理任务,可以有效地评估代码生成模型的能力。

关键设计:VoxelCode平台使用Unreal Engine作为3D环境模拟器,并提供了一组API用于控制体素的创建和操作。评估模块使用多种自动化指标,例如体素覆盖率和形状相似度,以及人工评估来衡量生成场景的质量。VoxelCodeBench基准测试中的任务设计考虑了不同类型的3D空间推理能力,例如符号解释需要模型理解任务描述中的符号信息,几何构造需要模型根据几何规则创建3D形状,艺术创作则需要模型具有一定的创造力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的代码生成模型在生成可执行代码方面表现较好,但在生成空间上正确的输出方面仍存在较大差距。特别是在几何构造和多对象组合等任务中,模型的性能显著下降。例如,在复杂的几何构造任务中,模型的成功率仅为XX%,远低于人类水平。

🎯 应用场景

该研究成果可应用于机器人、游戏开发、虚拟现实等领域。例如,可以利用该平台开发能够自动生成3D环境的机器人,或者辅助游戏开发者快速创建游戏场景。此外,该平台还可以用于评估和改进代码生成模型在3D空间推理方面的能力,从而推动相关技术的发展。

📄 摘要(原文)

Evaluating code generation models for 3D spatial reasoning requires executing generated code in realistic environments and assessing outputs beyond surface-level correctness. We introduce a platform VoxelCode, for analyzing code generation capabilities for 3D understanding and environment creation. Our platform integrates natural language task specification, API-driven code execution in Unreal Engine, and a unified evaluation pipeline supporting both automated metrics and human assessment. To demonstrate its utility, we construct VoxelCodeBench, a benchmark of voxel manipulation tasks spanning three reasoning dimensions: symbolic interpretation, geometric construction, and artistic composition. Evaluating leading code generation models, we find that producing executable code is far easier than producing spatially correct outputs, with geometric construction and multi-object composition proving particularly challenging. By open-sourcing our platform and benchmark, we provide the community with extensible infrastructure for developing new 3D code generation benchmarks and probing spatial reasoning in future models.