LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory
作者: Junyi Zhang, Charles Herrmann, Junhwa Hur, Chen Sun, Ming-Hsuan Yang, Forrester Cole, Trevor Darrell, Deqing Sun
分类: cs.CV, cs.LG
发布日期: 2026-03-03
备注: Project page: https://LoGeR-project.github.io/
💡 一句话要点
LoGeR:利用混合记忆模块实现长时序视频几何重建
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长时序视频重建 几何重建 混合记忆模块 测试时训练 滑动窗口注意力 全局一致性 三维重建
📋 核心要点
- 现有前馈几何模型难以扩展到长视频,面临二次注意力复杂度和循环模型记忆限制的挑战。
- LoGeR采用混合记忆模块,结合参数化TTT记忆锚定全局坐标系,以及非参数化SWA机制保持上下文信息。
- LoGeR在长序列重建任务上显著优于现有方法,在KITTI数据集上ATE降低超过74%,实现全局一致性。
📝 摘要(中文)
前馈几何基础模型在短窗口重建中表现出色,但将其扩展到数分钟长的视频时,会受到二次注意力复杂性或循环设计中有限有效记忆的限制。我们提出了LoGeR(长时序几何重建),这是一种新颖的架构,可以将密集3D重建扩展到极长的序列,而无需进行后优化。LoGeR分块处理视频流,利用强大的双向先验进行高保真度的块内推理。为了管理跨块边界一致性的关键挑战,我们提出了一个基于学习的混合记忆模块。该双组件系统结合了参数化的测试时训练(TTT)记忆来锚定全局坐标系并防止尺度漂移,以及非参数化的滑动窗口注意力(SWA)机制来保留未压缩的上下文,以实现高精度的相邻对齐。值得注意的是,这种记忆架构使LoGeR能够在128帧的序列上进行训练,并在推理期间推广到数千帧。在标准基准测试和新改造的VBR数据集(序列长达19k帧)上进行评估,LoGeR大大优于先前的最先进的前馈方法——在KITTI上将ATE降低了74%以上——并在前所未有的范围内实现了稳健、全局一致的重建。
🔬 方法详解
问题定义:论文旨在解决长时序视频的密集3D几何重建问题。现有前馈方法在处理长视频时,要么由于注意力机制的复杂度呈二次方增长而效率低下,要么由于循环神经网络的记忆容量有限而无法捕捉长程依赖关系,导致重建精度下降和全局一致性差。
核心思路:LoGeR的核心思路是利用分块处理和混合记忆模块来解决长序列重建问题。通过分块处理,降低了计算复杂度;通过混合记忆模块,既保留了全局坐标系信息,又维护了局部上下文信息,从而实现了长时序视频的精确重建。
技术框架:LoGeR的整体架构包括以下几个主要阶段:1) 视频流被分割成多个块;2) 每个块通过一个前馈网络进行处理,提取块内的几何信息;3) 混合记忆模块用于维护跨块的全局坐标系和局部上下文信息;4) 利用混合记忆模块的信息,对每个块的几何信息进行校正和融合,得到最终的重建结果。
关键创新:LoGeR最重要的技术创新点在于其混合记忆模块。该模块结合了参数化的测试时训练(TTT)记忆和非参数化的滑动窗口注意力(SWA)机制。TTT记忆通过在测试时进行微调,能够有效地锚定全局坐标系,防止尺度漂移。SWA机制则能够保留未压缩的上下文信息,从而实现高精度的相邻对齐。
关键设计:TTT记忆采用可学习的参数,并在测试时通过优化损失函数进行微调。SWA机制使用滑动窗口来限制注意力的范围,从而降低计算复杂度。损失函数包括重建损失和正则化损失,用于约束重建结果的精度和全局一致性。网络结构采用Transformer架构,并针对几何重建任务进行了优化。
🖼️ 关键图片
📊 实验亮点
LoGeR在KITTI数据集上将ATE降低了超过74%,显著优于现有的前馈方法。此外,LoGeR还能够在长达19k帧的VBR数据集上实现稳健、全局一致的重建,证明了其在长时序视频重建方面的优越性能。实验结果表明,LoGeR的混合记忆模块能够有效地解决长序列重建中的尺度漂移和上下文信息丢失问题。
🎯 应用场景
LoGeR在自动驾驶、机器人导航、增强现实等领域具有广泛的应用前景。它可以用于构建高精度的三维地图,为自动驾驶车辆提供可靠的环境感知信息。在机器人导航中,LoGeR可以帮助机器人理解周围环境,实现自主导航。在增强现实中,LoGeR可以用于将虚拟物体与真实场景进行精确对齐,提升用户体验。
📄 摘要(原文)
Feedforward geometric foundation models achieve strong short-window reconstruction, yet scaling them to minutes-long videos is bottlenecked by quadratic attention complexity or limited effective memory in recurrent designs. We present LoGeR (Long-context Geometric Reconstruction), a novel architecture that scales dense 3D reconstruction to extremely long sequences without post-optimization. LoGeR processes video streams in chunks, leveraging strong bidirectional priors for high-fidelity intra-chunk reasoning. To manage the critical challenge of coherence across chunk boundaries, we propose a learning-based hybrid memory module. This dual-component system combines a parametric Test-Time Training (TTT) memory to anchor the global coordinate frame and prevent scale drift, alongside a non-parametric Sliding Window Attention (SWA) mechanism to preserve uncompressed context for high-precision adjacent alignment. Remarkably, this memory architecture enables LoGeR to be trained on sequences of 128 frames, and generalize up to thousands of frames during inference. Evaluated across standard benchmarks and a newly repurposed VBR dataset with sequences of up to 19k frames, LoGeR substantially outperforms prior state-of-the-art feedforward methods--reducing ATE on KITTI by over 74%--and achieves robust, globally consistent reconstruction over unprecedented horizons.