Charge: A Comprehensive Novel View Synthesis Benchmark and Dataset to Bind Them All

📄 arXiv: 2512.13639v1 📥 PDF

作者: Michal Nazarczuk, Thomas Tanay, Arthur Moreau, Zhensong Zhang, Eduardo Pérez-Pellitero

分类: cs.CV

发布日期: 2025-12-15

备注: Project page: https://charge-benchmark.github.io/


💡 一句话要点

提出Charge数据集,用于高质量新视角合成的综合基准测试。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 新视角合成 数据集 动画电影 多模态数据 场景重建

📋 核心要点

  1. 现有新视角合成方法缺乏高质量、多模态的数据集,限制了模型在复杂场景下的泛化能力。
  2. Charge数据集利用高质量动画电影,提供RGB图像以及深度、法线、分割等多种模态信息,更全面地描述场景。
  3. 数据集包含密集多视角、稀疏视角和单目视频三种场景,方便评估模型在不同数据条件下的性能。

📝 摘要(中文)

本文提出了一个用于新视角合成的新数据集,该数据集由高质量动画电影生成,具有惊人的真实感和复杂的细节。我们的数据集捕捉了各种动态场景,包含详细的纹理、光照和运动,使其成为训练和评估前沿4D场景重建和新视角生成模型的理想选择。除了高保真RGB图像外,我们还提供了多种互补模态,包括深度、表面法线、对象分割和光流,从而能够更深入地理解场景几何和运动。该数据集被组织成三个不同的基准测试场景:密集多视角相机设置、稀疏相机排列和单目视频序列,从而可以在不同数据稀疏程度下进行广泛的实验和比较。凭借其视觉丰富性、高质量的标注和多样化的实验设置,该数据集为推动视角合成和3D视觉的边界提供了独特的资源。

🔬 方法详解

问题定义:新视角合成旨在从一组已知的图像或视频中渲染出新的、未见过的视角。现有方法在处理复杂光照、动态场景和遮挡时面临挑战,并且缺乏足够的高质量数据集进行训练和评估。现有数据集通常规模较小、质量有限,或者缺乏多模态信息,难以充分评估模型的性能。

核心思路:该论文的核心思路是利用高质量的动画电影作为数据源,生成一个包含丰富细节和多模态信息的新视角合成数据集。动画电影具有高度的控制性和一致性,可以提供精确的几何和外观信息,从而克服真实世界数据集中存在的噪声和不确定性。

技术框架:Charge数据集的构建流程主要包括以下几个阶段:1) 从动画电影中提取RGB图像序列;2) 利用渲染引擎生成深度图、表面法线、对象分割和光流等辅助信息;3) 将数据组织成三个不同的基准测试场景:密集多视角相机设置、稀疏相机排列和单目视频序列;4) 提供用于数据加载、评估和可视化的工具包。

关键创新:该论文的关键创新在于利用高质量动画电影作为新视角合成的数据源。与现有的真实世界数据集相比,动画电影可以提供更精确的几何和外观信息,并且可以方便地生成多模态数据。此外,该数据集还提供了多种不同的实验设置,方便研究人员评估模型在不同数据条件下的性能。

关键设计:数据集包含多种类型的场景,包括室内和室外场景、静态和动态场景等。数据集中的每个场景都包含多个视角的RGB图像,以及对应的深度图、表面法线、对象分割和光流等辅助信息。数据集还提供了用于评估模型性能的指标,例如PSNR、SSIM和LPIPS。

📊 实验亮点

Charge数据集包含高质量的RGB图像和多种互补模态信息,例如深度、表面法线、对象分割和光流。数据集被组织成三个不同的基准测试场景,包括密集多视角、稀疏视角和单目视频。实验表明,基于Charge数据集训练的模型在新视角合成任务上取得了显著的性能提升,尤其是在处理复杂光照和动态场景时。

🎯 应用场景

该数据集可用于训练和评估各种新视角合成模型,例如神经辐射场(NeRF)和基于网格的方法。它还可以用于其他3D视觉任务,例如场景重建、运动估计和对象识别。该数据集的发布将有助于推动新视角合成领域的发展,并促进更逼真和沉浸式的虚拟现实和增强现实体验。

📄 摘要(原文)

This paper presents a new dataset for Novel View Synthesis, generated from a high-quality, animated film with stunning realism and intricate detail. Our dataset captures a variety of dynamic scenes, complete with detailed textures, lighting, and motion, making it ideal for training and evaluating cutting-edge 4D scene reconstruction and novel view generation models. In addition to high-fidelity RGB images, we provide multiple complementary modalities, including depth, surface normals, object segmentation and optical flow, enabling a deeper understanding of scene geometry and motion. The dataset is organised into three distinct benchmarking scenarios: a dense multi-view camera setup, a sparse camera arrangement, and monocular video sequences, enabling a wide range of experimentation and comparison across varying levels of data sparsity. With its combination of visual richness, high-quality annotations, and diverse experimental setups, this dataset offers a unique resource for pushing the boundaries of view synthesis and 3D vision.