FTSplat: Feed-forward Triangle Splatting Network

📄 arXiv: 2603.05932v1 📥 PDF

作者: Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang

分类: cs.CV, cs.RO

发布日期: 2026-03-06


💡 一句话要点

提出FTSplat,通过前馈三角形splatting网络实现高效三维重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 前馈网络 三角形splatting 多视图几何 机器人仿真

📋 核心要点

  1. NeRF和3DGS重建质量高,但单场景优化耗时,难以实时部署,限制了应用。
  2. FTSplat通过前馈网络直接预测三角形表面,无需优化,一步到位生成可用于仿真的模型。
  3. 引入像素对齐三角形生成模块和相对3D点云监督,提升几何学习的稳定性和一致性。

📝 摘要(中文)

高保真三维重建对于机器人和仿真至关重要。神经辐射场(NeRF)和三维高斯溅射(3DGS)虽然实现了令人印象深刻的渲染质量,但它们依赖于耗时的单场景优化,限制了实时部署。新兴的前馈高斯溅射方法提高了效率,但通常缺乏直接仿真所需的显式流形几何。为了解决这些限制,我们提出了一个用于三角形图元生成的前馈框架,该框架直接从校准的多视图图像预测连续三角形表面。我们的方法在单个前向传递中生成可用于仿真的模型,无需单场景优化或后处理。我们引入了像素对齐的三角形生成模块,并结合相对三维点云监督,以增强几何学习的稳定性和一致性。实验表明,我们的方法实现了高效重建,同时保持与标准图形和机器人模拟器的无缝兼容性。

🔬 方法详解

问题定义:现有基于NeRF和3DGS的三维重建方法虽然渲染质量高,但需要针对每个场景进行优化,计算成本高昂,难以满足实时应用的需求。而一些前馈高斯溅射方法虽然提升了效率,但缺乏显式的流形几何信息,无法直接用于仿真。

核心思路:FTSplat的核心思路是直接从多视图图像预测三角形网格,避免了耗时的优化过程。通过前馈网络一步到位地生成可用于仿真的三维模型。这种方法旨在提高重建效率,同时保持与现有图形和机器人模拟器的兼容性。

技术框架:FTSplat的整体框架包含一个像素对齐的三角形生成模块,该模块以校准的多视图图像作为输入,直接预测三角形网格。此外,该框架还利用相对三维点云监督来增强几何学习的稳定性和一致性。整个过程通过一个前馈网络实现,无需迭代优化。

关键创新:FTSplat最重要的技术创新在于其前馈三角形splatting网络,该网络能够直接从多视图图像预测连续的三角形表面。与需要逐场景优化的NeRF和3DGS方法不同,FTSplat只需一次前向传递即可生成可用于仿真的模型。此外,像素对齐的三角形生成模块和相对三维点云监督也提高了重建的质量和稳定性。

关键设计:FTSplat的关键设计包括:像素对齐的三角形生成模块,用于确保生成的三角形与输入图像像素对齐;相对三维点云监督,用于约束几何形状的一致性;以及损失函数的设计,用于优化网络的参数,使得生成的三角形网格尽可能地逼近真实的三维结构。具体的网络结构和参数设置在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FTSplat通过前馈网络实现了高效的三维重建,避免了耗时的单场景优化。实验结果表明,该方法在保持与标准图形和机器人模拟器兼容性的同时,能够生成高质量的三维模型。与现有方法相比,FTSplat在重建速度上具有显著优势,并且能够生成显式的流形几何信息,便于后续的仿真和应用。

🎯 应用场景

FTSplat具有广泛的应用前景,包括机器人导航、虚拟现实、增强现实、游戏开发和三维场景重建等领域。其高效的重建能力使得实时三维场景理解和交互成为可能,可以用于快速构建虚拟环境,训练机器人,以及创建逼真的游戏场景。此外,该方法生成的模型可以直接导入到现有的图形和机器人模拟器中,方便进行进一步的分析和应用。

📄 摘要(原文)

High-fidelity three-dimensional (3D) reconstruction is essential for robotics and simulation. While Neural Radiance Fields (NeRF) and 3D Gaussian Splatting (3DGS) achieve impressive rendering quality, their reliance on time-consuming per-scene optimization limits real-time deployment. Emerging feed-forward Gaussian splatting methods improve efficiency but often lack explicit, manifold geometry required for direct simulation. To address these limitations, we propose a feed-forward framework for triangle primitive generation that directly predicts continuous triangle surfaces from calibrated multi-view images. Our method produces simulation-ready models in a single forward pass, obviating the need for per-scene optimization or post-processing. We introduce a pixel-aligned triangle generation module and incorporate relative 3D point cloud supervision to enhance geometric learning stability and consistency. Experiments demonstrate that our method achieves efficient reconstruction while maintaining seamless compatibility with standard graphics and robotic simulators.