OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

📄 arXiv: 2603.05959v1 📥 PDF

作者: Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen

分类: cs.CV

发布日期: 2026-03-06


💡 一句话要点

提出OVGGT,实现恒定成本的流式视觉几何Transformer,解决长视频3D重建问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 流式3D重建 视觉几何Transformer 恒定成本 自选择缓存 动态锚点保护 长视频处理 几何漂移抑制

📋 核心要点

  1. 现有基于Transformer的3D重建方法计算成本高昂,难以处理长视频序列,且KV缓存随序列增长迅速,导致GPU内存耗尽。
  2. OVGGT通过自选择缓存压缩KV缓存,并采用动态锚点保护机制,防止关键token被驱逐,从而实现恒定内存和计算成本。
  3. 实验表明,OVGGT在保持最先进3D几何精度的同时,能够在恒定VRAM下处理任意长度的视频序列。

📝 摘要(中文)

本文提出OVGGT,一个无需训练的框架,它将内存和计算量限制在固定预算内,不受序列长度的影响。从流式视频中重建3D几何体需要在有限的资源下进行连续推理。现有的几何基础模型通过全连接注意力实现了令人印象深刻的重建质量,但其二次成本将其限制在短的离线序列中。因果注意力变体(如StreamVGGT)支持单次流式传输,但会累积不断增长的KV缓存,在数百帧内耗尽GPU内存,从而排除了对流式推理的长期部署。OVGGT结合了自选择缓存(利用FFN残差幅度来压缩KV缓存,同时与FlashAttention完全兼容)和动态锚点保护(保护坐标关键token免受驱逐,以抑制扩展轨迹上的几何漂移)。在室内、室外和超长序列基准上的大量实验表明,OVGGT在恒定的VRAM范围内处理任意长度的视频,同时实现了最先进的3D几何精度。

🔬 方法详解

问题定义:现有基于Transformer的3D几何重建模型,如StreamVGGT,虽然能够进行流式处理,但其KV缓存会随着视频帧数的增加而线性增长,导致GPU内存耗尽,无法处理超长视频序列。因此,需要一种能够在恒定内存和计算资源下进行流式3D重建的方法。

核心思路:OVGGT的核心思路是在保证重建精度的前提下,通过压缩和保护关键信息来限制KV缓存的大小。具体来说,采用自选择缓存机制来压缩不重要的token,并使用动态锚点保护机制来防止关键的几何信息丢失。

技术框架:OVGGT框架主要包含两个核心模块:自选择缓存(Self-Selective Caching)和动态锚点保护(Dynamic Anchor Protection)。自选择缓存模块利用前馈网络(FFN)的残差幅度来评估token的重要性,并只保留重要的token到KV缓存中。动态锚点保护模块则识别并保护对几何重建至关重要的token,防止它们被自选择缓存机制驱逐。这两个模块共同作用,实现了恒定成本的流式3D重建。

关键创新:OVGGT的关键创新在于其训练无关性(training-free)和对现有加速技术的兼容性。它不需要额外的训练,可以直接应用于现有的预训练模型。同时,OVGGT与FlashAttention等加速技术完全兼容,可以进一步提高计算效率。此外,动态锚点保护机制能够有效抑制长序列中的几何漂移问题。

关键设计:自选择缓存的关键在于FFN残差幅度的使用,它被用作token重要性的度量。动态锚点保护的关键在于如何识别坐标关键token,论文中具体方法未知。具体参数设置和网络结构细节在论文中未详细说明,需要查阅原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OVGGT在室内、室外和超长序列基准测试中表现出色,实现了最先进的3D几何精度,同时保持了恒定的VRAM使用量。具体性能数据和对比基线在摘要中未给出,需要查阅原文。

🎯 应用场景

OVGGT在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以用于实时重建周围环境的3D几何结构,帮助机器人或自动驾驶车辆进行路径规划和避障。此外,OVGGT还可以用于AR/VR应用中,实现更逼真的虚拟现实体验。

📄 摘要(原文)

Reconstructing 3D geometry from streaming video requires continuous inference under bounded resources. Recent geometric foundation models achieve impressive reconstruction quality through all-to-all attention, yet their quadratic cost confines them to short, offline sequences. Causal-attention variants such as StreamVGGT enable single-pass streaming but accumulate an ever-growing KV cache, exhausting GPU memory within hundreds of frames and precluding the long-horizon deployment that motivates streaming inference in the first place. We present OVGGT, a training-free framework that bounds both memory and compute to a fixed budget regardless of sequence length. Our approach combines Self-Selective Caching, which leverages FFN residual magnitudes to compress the KV cache while remaining fully compatible with FlashAttention, with Dynamic Anchor Protection, which shields coordinate-critical tokens from eviction to suppress geometric drift over extended trajectories. Extensive experiments on indoor, outdoor, and ultra-long sequence benchmarks demonstrate that OVGGT processes arbitrarily long videos within a constant VRAM envelope while achieving state-of-the-art 3D geometric accuracy.