FUSE: A Flow-based Mapping Between Shapes

📄 arXiv: 2511.13431v1 📥 PDF

作者: Lorenzo Olearo, Giulio Viganò, Daniele Baieri, Filippo Maggioli, Simone Melzi

分类: cs.CV

发布日期: 2025-11-17

备注: 11 pages, 9 figures


💡 一句话要点

提出基于Flow-Matching的形状映射方法,高效支持跨表示形状匹配。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 形状匹配 流匹配模型 连续归一化流 跨表示学习 三维重建

📋 核心要点

  1. 现有形状匹配方法在处理不同表示形式(如点云、网格)时存在困难,且依赖大规模训练数据。
  2. 论文提出利用连续可逆流,将形状映射到固定锚分布,实现跨表示的形状匹配,无需大量训练。
  3. 实验表明,该方法在形状匹配、UV映射和点云配准等任务中表现出色,具有高覆盖率和准确性。

📝 摘要(中文)

本文提出了一种新颖的神经表示方法,用于3D形状之间的映射,该方法基于流匹配模型,计算效率高,并支持跨表示的形状匹配,无需大规模训练或数据驱动的程序。3D形状被表示为由从固定锚分布的连续可逆流映射所引起的概率分布。给定源形状和目标形状,通过将逆流(从源到锚)与正向流(从锚到目标)组合,我们可以在两个表面之间连续映射点。通过使用针对特定任务的点式嵌入对形状进行编码,这种构造提供了一种可逆且模态无关的形状之间映射表示,适用于点云、网格、有符号距离场(SDF)和体数据。在各种基准测试和具有挑战性的形状匹配设置中,所提出的表示始终如一地实现了高覆盖率和准确性。除了形状匹配之外,我们的框架在其他任务中也显示出有希望的结果,包括UV映射和人体原始点云扫描的配准。

🔬 方法详解

问题定义:现有形状匹配方法通常针对特定形状表示(如点云或网格)设计,难以泛化到其他表示形式。此外,许多方法依赖于大规模数据集进行训练,限制了其在数据稀缺场景下的应用。因此,需要一种能够处理不同形状表示,且无需大量训练数据的通用形状匹配方法。

核心思路:论文的核心思想是将3D形状表示为由连续可逆流从固定锚分布映射而来的概率分布。通过这种方式,可以将不同表示形式的形状映射到同一个潜在空间,从而实现跨表示的形状匹配。形状之间的映射通过组合逆流(从源形状到锚分布)和正向流(从锚分布到目标形状)来实现。

技术框架:该方法包含以下主要步骤:1) 使用流匹配模型学习从固定锚分布到目标形状的连续可逆流。2) 对于给定的源形状和目标形状,计算从源形状到锚分布的逆流,以及从锚分布到目标形状的正向流。3) 将逆流和正向流组合,得到从源形状到目标形状的映射。4) 使用点式任务定制嵌入对形状进行编码,以提高匹配的准确性。

关键创新:该方法的主要创新在于使用流匹配模型来表示形状之间的映射。与传统的基于优化的方法相比,该方法计算效率更高,并且可以处理不同表示形式的形状。此外,该方法不需要大规模训练数据,使其适用于数据稀缺的场景。

关键设计:论文使用连续归一化流(Continuous Normalizing Flows, CNF)作为流匹配模型。CNF通过求解一个常微分方程(ODE)来学习连续可逆流。论文使用一个神经网络来参数化ODE的向量场。损失函数包括一个流匹配损失和一个正则化项,以保证流的光滑性。点式嵌入通过一个小的神经网络学习,该网络以形状上的点坐标作为输入,并输出一个高维向量表示。

📊 实验亮点

实验结果表明,该方法在形状匹配任务中取得了优异的性能,在各种基准测试和具有挑战性的设置中都实现了高覆盖率和准确性。此外,该方法在UV映射和人体原始点云扫描的配准等任务中也表现出良好的效果。与现有方法相比,该方法在计算效率和泛化能力方面具有显著优势。

🎯 应用场景

该研究成果可应用于三维模型检索、计算机辅助设计、医学图像分析、机器人抓取等领域。例如,在三维模型检索中,可以利用该方法实现跨表示的形状相似度搜索。在医学图像分析中,可以用于不同模态医学图像的配准。该方法还可用于机器人抓取任务中,实现对不同形状物体的稳定抓取。

📄 摘要(原文)

We introduce a novel neural representation for maps between 3D shapes based on flow-matching models, which is computationally efficient and supports cross-representation shape matching without large-scale training or data-driven procedures. 3D shapes are represented as the probability distribution induced by a continuous and invertible flow mapping from a fixed anchor distribution. Given a source and a target shape, the composition of the inverse flow (source to anchor) with the forward flow (anchor to target), we continuously map points between the two surfaces. By encoding the shapes with a pointwise task-tailored embedding, this construction provides an invertible and modality-agnostic representation of maps between shapes across point clouds, meshes, signed distance fields (SDFs), and volumetric data. The resulting representation consistently achieves high coverage and accuracy across diverse benchmarks and challenging settings in shape matching. Beyond shape matching, our framework shows promising results in other tasks, including UV mapping and registration of raw point cloud scans of human bodies.