LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents
作者: Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang
分类: cs.CV
发布日期: 2026-03-06
💡 一句话要点
LATO:提出一种拓扑保持的隐空间表示,实现可扩展的基于流匹配的3D网格生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 3D网格生成 流匹配 变分自编码器 拓扑保持 隐空间表示
📋 核心要点
- 现有3D网格生成方法在处理复杂几何形状和保持拓扑结构方面存在挑战,且推理效率较低。
- LATO通过引入拓扑保持的体素隐空间表示,并结合流匹配方法,实现了高效且高质量的3D网格生成。
- LATO在生成复杂几何形状和保持拓扑结构方面优于现有方法,并在推理效率上有所提升。
📝 摘要(中文)
本文提出了一种名为LATO的新型拓扑保持隐空间表示,它能够实现可扩展的、基于流匹配的显式3D网格合成。LATO将网格表示为锚定在表面上的顶点位移场(VDF),并结合稀疏体素变分自编码器(VAE)将该显式信号压缩为结构化的、具有拓扑感知能力的体素隐空间。为了解封装网格,VAE解码器逐步细分和修剪隐空间体素,从而实例化精确的顶点位置。最后,一个专用的连接头查询体素隐空间,直接预测顶点对之间的边连接,从而无需等值面提取或启发式网格划分即可恢复网格拓扑。在生成建模方面,LATO采用两阶段流匹配过程,首先合成结构体素,然后细化体素级的拓扑特征。与之前的基于等值面/三角形的扩散模型和自回归生成方法相比,LATO能够生成具有复杂几何形状和良好拓扑结构的网格,同时在推理方面具有很高的效率。
🔬 方法详解
问题定义:现有的3D网格生成方法,例如基于等值面提取或三角形的扩散模型,在生成具有复杂几何形状和良好拓扑结构的网格时面临挑战。此外,自回归生成方法通常效率较低,难以扩展到大规模数据集。因此,需要一种能够高效生成具有复杂几何形状和良好拓扑结构的3D网格的方法。
核心思路:LATO的核心思路是将3D网格表示为顶点位移场(VDF),并使用稀疏体素变分自编码器(VAE)将VDF压缩为结构化的、具有拓扑感知能力的体素隐空间。通过在隐空间中进行操作,可以有效地生成和编辑3D网格,同时保持其拓扑结构。此外,LATO采用两阶段流匹配过程,进一步提高了生成质量和效率。
技术框架:LATO的整体框架包括以下几个主要模块:1) 顶点位移场(VDF)表示:将3D网格表示为顶点相对于表面位置的位移。2) 稀疏体素VAE:将VDF压缩为体素隐空间表示,该隐空间具有结构化和拓扑感知能力。3) 解码器:通过逐步细分和修剪隐空间体素,实例化精确的顶点位置。4) 连接头:预测顶点对之间的边连接,从而恢复网格拓扑。5) 两阶段流匹配:首先合成结构体素,然后细化体素级的拓扑特征。
关键创新:LATO的关键创新在于其拓扑保持的体素隐空间表示。与传统的基于三角形或等值面的表示方法不同,LATO的体素隐空间能够更好地捕捉网格的拓扑结构,从而生成具有良好拓扑结构的网格。此外,LATO的连接头可以直接预测顶点对之间的边连接,避免了传统的等值面提取或启发式网格划分过程,提高了生成效率。
关键设计:LATO的关键设计包括:1) 稀疏体素VAE的结构,包括编码器和解码器的具体实现。2) 连接头的网络结构和损失函数,用于预测顶点对之间的边连接。3) 两阶段流匹配过程的具体实现,包括如何合成结构体素和细化拓扑特征。4) 损失函数的设计,用于训练整个模型,包括VAE的重构损失、连接头的分类损失和流匹配的损失。
🖼️ 关键图片
📊 实验亮点
论文提出的LATO模型在3D网格生成任务上取得了显著的成果。与现有的基于等值面/三角形的扩散模型和自回归生成方法相比,LATO能够生成具有更复杂几何形状和更良好拓扑结构的网格,同时在推理效率上有所提升。具体的性能数据和对比基线需要在论文中查找。
🎯 应用场景
LATO具有广泛的应用前景,包括3D内容生成、计算机辅助设计、游戏开发、虚拟现实和增强现实等领域。它可以用于生成各种类型的3D网格,例如人物模型、场景模型和工业零件模型。此外,LATO还可以用于3D网格编辑和修复,例如拓扑结构优化和几何细节增强。该研究的成果将推动3D内容创作和应用的发展。
📄 摘要(原文)
In this paper, we introduce LATO, a novel topology-preserving latent representation that enables scalable, flow matching-based synthesis of explicit 3D meshes. LATO represents a mesh as a Vertex Displacement Field (VDF) anchored on surface, incorporating a sparse voxel Variational Autoencoder (VAE) to compress this explicit signal into a structured, topology-aware voxel latent. To decapsulate the mesh, the VAE decoder progressively subdivides and prunes latent voxels to instantiate precise vertex locations. In the end, a dedicated connection head queries the voxel latent to predict edge connectivity between vertex pairs directly, allowing mesh topology to be recovered without isosurface extraction or heuristic meshing. For generative modeling, LATO adopts a two-stage flow matching process, first synthesizing the structure voxels and subsequently refining the voxel-wise topology features. Compared to prior isosurface/triangle-based diffusion models and autoregressive generation approaches, LATO generates meshes with complex geometry, well-formed topology while being highly efficient in inference.