ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

📄 arXiv: 2603.04385v1 📥 PDF

作者: Haian Jin, Rundi Wu, Tianyuan Zhang, Ruiqi Gao, Jonathan T. Barron, Noah Snavely, Aleksander Holynski

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-03-04

备注: Project page: https://haian-jin.github.io/ZipMap


💡 一句话要点

ZipMap:线性时间、状态式三维重建与测试时训练

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 状态式模型 测试时训练 线性时间复杂度 Transformer 场景理解 实时渲染

📋 核心要点

  1. 现有三维重建方法,如VGGT,计算复杂度高,难以应用于大规模图像集。
  2. ZipMap通过引入状态式前馈模型和测试时训练,实现线性时间复杂度的三维重建。
  3. 实验表明,ZipMap在重建速度和精度上均优于现有方法,并在实时场景查询中表现出色。

📝 摘要(中文)

前馈Transformer模型推动了三维视觉的快速发展,但VGGT和$π^3$等最先进的方法的计算成本与输入图像的数量呈二次方关系,这使得它们在应用于大型图像集合时效率低下。顺序重建方法降低了这种成本,但牺牲了重建质量。我们引入了ZipMap,一种状态式前馈模型,它实现了线性时间、双向三维重建,同时匹配或超过了二次时间方法的精度。ZipMap采用测试时训练层,在单个前向传递中将整个图像集合压缩成一个紧凑的隐藏场景状态,从而能够在单个H100 GPU上在不到10秒的时间内重建超过700帧,比VGGT等最先进的方法快20倍以上。此外,我们还展示了拥有状态表示在实时场景状态查询及其扩展到顺序流重建中的好处。

🔬 方法详解

问题定义:论文旨在解决大规模图像集的三维重建问题。现有方法,特别是基于Transformer的模型(如VGGT和$π^3$),计算复杂度与图像数量呈平方关系,导致处理大规模数据集时效率低下。顺序重建方法虽然降低了计算成本,但牺牲了重建质量。因此,如何在保证重建质量的前提下,降低计算复杂度,是本论文要解决的核心问题。

核心思路:ZipMap的核心思路是引入一个状态式的表示,将整个场景的信息压缩到一个紧凑的隐藏状态中。通过在测试时训练(test-time training)的方式,模型可以在单次前向传递中将整个图像集合“压缩”到这个状态中。这种状态式的表示允许模型以线性时间复杂度进行重建,因为后续的重建过程只需要基于这个状态进行,而不需要每次都处理所有的原始图像。

技术框架:ZipMap的整体框架包含以下几个主要模块:1) 图像编码器:将输入的图像编码成特征向量。2) 状态更新模块:利用测试时训练层,将图像特征逐步更新到隐藏状态中。3) 解码器:基于隐藏状态,解码出三维场景的表示(例如,深度图或点云)。整个流程是前馈的,并且是双向的,这意味着图像可以按照任意顺序输入到模型中。

关键创新:ZipMap最重要的创新点在于引入了状态式的表示和测试时训练。与传统的feed-forward模型不同,ZipMap维护一个隐藏状态,该状态随着输入图像的增加而逐步更新。测试时训练允许模型在推理阶段根据输入数据进行自适应调整,从而提高重建精度。这种状态式的表示和测试时训练的结合,使得ZipMap能够在保证重建质量的前提下,实现线性时间复杂度的重建。

关键设计:ZipMap的关键设计包括:1) 使用Transformer作为图像编码器,提取图像的全局特征。2) 设计了专门的测试时训练层,用于将图像特征融合到隐藏状态中。3) 使用可微分的渲染器,将三维场景的表示渲染成图像,并与原始图像进行比较,从而优化隐藏状态。损失函数通常包括重建损失(例如,L1或L2损失)和正则化项,以防止过拟合。具体的网络结构和参数设置会根据不同的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ZipMap在重建速度上取得了显著的提升,在单个H100 GPU上,可以在不到10秒的时间内重建超过700帧的图像,比VGGT等最先进的方法快20倍以上。同时,ZipMap在重建精度上也能与现有方法相媲美,甚至在某些数据集上超过了现有方法。此外,ZipMap还展示了在实时场景状态查询方面的优势,这为未来的应用提供了更多的可能性。

🎯 应用场景

ZipMap具有广泛的应用前景,包括:1) 实时三维重建:可用于机器人导航、增强现实等需要实时获取三维场景信息的应用。2) 大规模场景重建:可用于城市建模、虚拟现实等需要处理大规模图像数据的应用。3) 场景理解:通过对隐藏状态的分析,可以实现对场景的理解和推理。未来,ZipMap有望成为三维视觉领域的重要基石。

📄 摘要(原文)

Feed-forward transformer models have driven rapid progress in 3D vision, but state-of-the-art methods such as VGGT and $π^3$ have a computational cost that scales quadratically with the number of input images, making them inefficient when applied to large image collections. Sequential-reconstruction approaches reduce this cost but sacrifice reconstruction quality. We introduce ZipMap, a stateful feed-forward model that achieves linear-time, bidirectional 3D reconstruction while matching or surpassing the accuracy of quadratic-time methods. ZipMap employs test-time training layers to zip an entire image collection into a compact hidden scene state in a single forward pass, enabling reconstruction of over 700 frames in under 10 seconds on a single H100 GPU, more than $20\times$ faster than state-of-the-art methods such as VGGT. Moreover, we demonstrate the benefits of having a stateful representation in real-time scene-state querying and its extension to sequential streaming reconstruction.