TRiGS: Temporal Rigid-Body Motion for Scalable 4D Gaussian Splatting

📄 arXiv: 2604.00538v1 📥 PDF

作者: Suwoong Yeom, Joonsik Nam, Seunggyu Choi, Lucas Yunkyu Lee, Sangmin Kim, Jaesik Park, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong, Sukju Kang

分类: cs.CV

发布日期: 2026-04-01

备注: Project page: https://wwwjjn.github.io/TRiGS-project_page/


💡 一句话要点

TRiGS:提出时序刚体运动的4D高斯溅射,解决长时序动态场景重建问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 4D高斯溅射 动态场景重建 刚体运动 时间一致性 SE(3)变换

📋 核心要点

  1. 现有4D高斯溅射方法在长时序动态场景重建中存在时间碎片化和内存增长问题。
  2. TRiGS通过统一的连续几何变换,为每个高斯图元建模几何一致的刚性运动,保持时间一致性。
  3. 实验表明,TRiGS在长视频序列上实现了高保真渲染,并显著优于现有方法的时间稳定性。

📝 摘要(中文)

本文提出了一种名为TRiGS的新型4D表示方法,旨在解决4D高斯溅射(4DGS)在动态场景重建中面临的挑战。现有的4DGS方法通常依赖分段线性速度近似和短时窗,导致严重的时间碎片化,迫使图元反复消除和再生以跟踪复杂的非线性动态。这种临时近似消除了物体的长期时间一致性,并导致高斯数量不可避免地激增,从而阻碍了对扩展视频序列的可扩展性。TRiGS通过集成$SE(3)$变换、分层贝塞尔残差和可学习的局部锚点,为单个图元建模几何一致的刚性运动。这种连续公式保留了时间一致性,并有效地缓解了无限制的内存增长。大量实验表明,TRiGS在标准基准上实现了高保真渲染,同时能够唯一地扩展到扩展视频序列(例如,600到1200帧),而不会出现严重的内存瓶颈,在时间稳定性方面显著优于现有方法。

🔬 方法详解

问题定义:现有4D高斯溅射方法在处理长时序动态场景时,由于采用分段线性速度近似和短时窗,导致时间碎片化严重,需要不断地消除和再生高斯图元来跟踪非线性运动。这破坏了物体的时间一致性,并导致高斯图元数量爆炸式增长,限制了方法的可扩展性。

核心思路:TRiGS的核心思路是使用统一的、连续的几何变换来表示高斯图元的运动。通过将刚体运动建模为连续的$SE(3)$变换,并结合分层贝塞尔残差和可学习的局部锚点,TRiGS能够保持高斯图元的时间一致性,从而避免了频繁的图元消除和再生。

技术框架:TRiGS的整体框架包括以下几个主要模块:1) 初始化:使用传统方法初始化高斯图元;2) 运动建模:使用$SE(3)$变换、分层贝塞尔残差和可学习的局部锚点来建模每个高斯图元的运动;3) 渲染:使用高斯溅射渲染技术将高斯图元投影到图像平面上;4) 优化:使用光度损失和其他正则化项来优化高斯图元的参数和运动轨迹。

关键创新:TRiGS的关键创新在于使用连续的几何变换来表示高斯图元的运动。与现有方法的分段线性近似相比,TRiGS能够更准确地建模复杂的非线性运动,并保持高斯图元的时间一致性。此外,TRiGS还引入了分层贝塞尔残差和可学习的局部锚点,进一步提高了运动建模的精度和鲁棒性。

关键设计:TRiGS使用$SE(3)$群来表示刚体运动,并使用指数映射将李代数转换为李群元素。分层贝塞尔残差用于对$SE(3)$变换进行微调,以更好地适应非刚性形变。可学习的局部锚点用于将全局运动分解为局部运动,从而提高运动建模的灵活性。损失函数包括光度损失、正则化损失(例如,平滑度损失)和时间一致性损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TRiGS在标准基准上实现了高保真渲染,并且能够扩展到更长的视频序列(600-1200帧),而不会出现严重的内存瓶颈。与现有方法相比,TRiGS在时间稳定性方面显著提升,能够更好地保持高斯图元的时间一致性。具体性能数据在论文中有详细展示,证明了TRiGS的优越性。

🎯 应用场景

TRiGS在动态场景重建、虚拟现实、增强现实、机器人导航等领域具有广泛的应用前景。它可以用于创建逼真的动态3D模型,用于虚拟现实体验和游戏开发。此外,TRiGS还可以用于机器人导航,使机器人能够更好地理解和适应动态环境。该研究的实际价值在于提高了动态场景重建的质量和效率,并为未来的相关研究奠定了基础。

📄 摘要(原文)

Recent 4D Gaussian Splatting (4DGS) methods achieve impressive dynamic scene reconstruction but often rely on piecewise linear velocity approximations and short temporal windows. This disjointed modeling leads to severe temporal fragmentation, forcing primitives to be repeatedly eliminated and regenerated to track complex nonlinear dynamics. This makeshift approximation eliminates the long-term temporal identity of objects and causes an inevitable proliferation of Gaussians, hindering scalability to extended video sequences. To address this, we propose TRiGS, a novel 4D representation that utilizes unified, continuous geometric transformations. By integrating $SE(3)$ transformations, hierarchical Bezier residuals, and learnable local anchors, TRiGS models geometrically consistent rigid motions for individual primitives. This continuous formulation preserves temporal identity and effectively mitigates unbounded memory growth. Extensive experiments demonstrate that TRiGS achieves high fidelity rendering on standard benchmarks while uniquely scaling to extended video sequences (e.g., 600 to 1200 frames) without severe memory bottlenecks, significantly outperforming prior works in temporal stability.