OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

📄 arXiv: 2603.02134v1 📥 PDF

作者: Chong Xia, Fangfu Liu, Yule Wang, Yize Pang, Yueqi Duan

分类: cs.CV

发布日期: 2026-03-02


💡 一句话要点

OnlineX:提出主动-稳定状态演化,实现统一的在线3D重建与理解

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 在线3D重建 3D高斯溅射 主动-稳定状态演化 新视角合成 语义理解

📋 核心要点

  1. 现有3D高斯溅射方法主要采用离线重建模式,缺乏连续重建能力,限制了其在机器人和VR/AR等在线场景中的应用。
  2. OnlineX框架解耦内存状态为主动状态和稳定状态,融合前者信息到后者,以解决在线重建中的累积漂移问题,保证重建的保真度和稳定性。
  3. 该方法联合建模视觉外观和语言场,并引入隐式高斯融合模块,提升重建质量,并在主流数据集上取得了优于现有方法的效果。

📝 摘要(中文)

本文提出OnlineX,一个仅使用流式图像在线重建3D视觉外观和语言场的feed-forward框架。在线重建的关键挑战是累积漂移问题,它源于内存状态的两个对立角色之间的根本冲突:不断刷新以捕获高频局部几何结构的主动角色,以及保守地积累和保存长期全局结构的稳定角色。为了解决这个问题,我们引入了解耦的主动-稳定状态演化范式。我们的框架将内存状态解耦为专用的主动状态和持久的稳定状态,然后将来自前者的信息有凝聚力地融合到后者中,以实现保真度和稳定性。此外,我们联合建模视觉外观和语言场,并结合隐式高斯融合模块以提高重建质量。在主流数据集上的实验表明,我们的方法在新视角合成和语义理解方面始终优于现有方法,在具有实时推理速度的不同长度的输入序列中表现出强大的性能。

🔬 方法详解

问题定义:现有基于3D高斯溅射(3DGS)的方法主要关注离线场景重建,即需要一次性获取所有数据后才能进行重建。然而,在机器人、VR/AR等在线应用中,需要实时地、增量式地进行3D场景重建和理解。现有的在线重建方法面临累积漂移的问题,即随着时间的推移,重建的场景会逐渐失真,影响重建质量和后续任务的性能。这种漂移的根本原因是内存状态需要在“主动”和“稳定”两种角色之间进行权衡:主动状态需要不断刷新以捕捉局部几何细节,而稳定状态需要保守地积累和保持全局结构信息。

核心思路:OnlineX的核心思路是将内存状态解耦为两个独立的部分:主动状态和稳定状态。主动状态负责快速捕捉最新的局部几何信息,并进行频繁更新;稳定状态则负责长期存储和维护全局场景结构,避免累积漂移。通过将主动状态的信息融合到稳定状态中,OnlineX能够在保证重建质量的同时,维持场景的长期一致性。这种主动-稳定状态演化范式是解决在线重建中累积漂移问题的关键。

技术框架:OnlineX的整体框架是一个feed-forward网络,输入是流式图像序列,输出是3D视觉外观和语言场。框架主要包含以下几个模块:1)图像特征提取模块:用于提取输入图像的视觉特征。2)主动状态更新模块:根据图像特征更新主动状态,捕捉最新的局部几何信息。3)稳定状态融合模块:将主动状态的信息融合到稳定状态中,更新全局场景结构。4)3D高斯溅射渲染模块:根据稳定状态渲染出3D场景的视觉外观。5)语言场建模模块:联合建模场景的语言信息,实现语义理解。

关键创新:OnlineX最重要的创新点在于其解耦的主动-稳定状态演化范式。与现有方法不同,OnlineX将内存状态显式地分为主动和稳定两部分,并设计了专门的融合机制,使得模型能够在捕捉局部细节的同时,保持全局场景的一致性。此外,OnlineX还联合建模了视觉外观和语言场,并引入了隐式高斯融合模块,进一步提升了重建质量和语义理解能力。

关键设计:在主动状态更新模块中,使用了基于Transformer的网络结构,用于捕捉图像特征之间的关系。在稳定状态融合模块中,设计了一个隐式高斯融合模块,该模块通过学习一个融合权重,自适应地将主动状态的信息融合到稳定状态中。损失函数包括新视角合成损失、语义分割损失和语言场重建损失,用于约束模型的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OnlineX在多个主流数据集上取得了显著的性能提升。在新视角合成方面,OnlineX的PSNR、SSIM和LPIPS指标均优于现有方法。在语义理解方面,OnlineX的mIoU指标也达到了领先水平。此外,OnlineX还具有实时推理速度,能够满足在线应用的需求。例如,在某个数据集上,OnlineX的重建速度达到了30帧/秒,比现有方法快了数倍。

🎯 应用场景

OnlineX具有广泛的应用前景,例如:1) 机器人导航与场景理解:机器人可以利用OnlineX实时构建周围环境的3D地图,并进行语义理解,从而实现自主导航和任务执行。2) VR/AR:OnlineX可以用于构建沉浸式的虚拟现实和增强现实体验,用户可以在虚拟环境中自由探索和交互。3) 城市建模与监控:OnlineX可以用于实时构建城市的三维模型,并进行监控和管理。未来,该技术有望在更多领域得到应用,例如自动驾驶、智能家居等。

📄 摘要(原文)

Recent advances in generalizable 3D Gaussian Splatting (3DGS) have enabled rapid 3D scene reconstruction within seconds, eliminating the need for per-scene optimization. However, existing methods primarily follow an offline reconstruction paradigm, lacking the capacity for continuous reconstruction, which limits their applicability to online scenarios such as robotics and VR/AR. In this paper, we introduce OnlineX, a feed-forward framework that reconstructs both 3D visual appearance and language fields in an online manner using only streaming images. A key challenge in online formulation is the cumulative drift issue, which is rooted in the fundamental conflict between two opposing roles of the memory state: an active role that constantly refreshes to capture high-frequency local geometry, and a stable role that conservatively accumulates and preserves the long-term global structure. To address this, we introduce a decoupled active-to-stable state evolution paradigm. Our framework decouples the memory state into a dedicated active state and a persistent stable state, and then cohesively fuses the information from the former into the latter to achieve both fidelity and stability. Moreover, we jointly model visual appearance and language fields and incorporate an implicit Gaussian fusion module to enhance reconstruction quality. Experiments on mainstream datasets demonstrate that our method consistently outperforms prior work in novel view synthesis and semantic understanding, showcasing robust performance across input sequences of varying lengths with real-time inference speed.