Splats under Pressure: Exploring Performance-Energy Trade-offs in Real-Time 3D Gaussian Splatting under Constrained GPU Budgets

📄 arXiv: 2604.07177v1 📥 PDF

作者: Muhammad Fahim Tajwar, Arthur Wuhrlin, Bhojan Anand

分类: cs.GR, cs.LG

发布日期: 2026-04-08


💡 一句话要点

研究不同GPU功耗预算下实时3D高斯溅射的性能-能耗权衡

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 实时渲染 边缘计算 GPU仿真 性能-能耗权衡

📋 核心要点

  1. 现有3D高斯溅射在边缘设备上的实时渲染能力和能耗表现尚不明确,限制了其在移动和嵌入式设备上的应用。
  2. 该研究采用GPU仿真方法,通过控制GPU频率和功耗,模拟不同性能等级的GPU,从而评估3DGS在不同功耗预算下的性能。
  3. 实验分析了不同场景复杂度、渲染管线和优化策略下的帧率、功耗等指标,揭示了3DGS在边缘设备部署的性能-能耗权衡。

📝 摘要(中文)

本文研究了在不同高斯溅射数量和GPU计算预算下,边缘客户端上实时3D高斯溅射(3DGS)光栅化的可行性。我们没有评估多个物理设备,而是采用基于仿真的方法,在单个高端GPU上近似模拟不同的GPU能力等级。通过系统地降低GPU核心频率和施加功率上限,我们模拟了一系列可控的浮点性能水平,以逼近不同的GPU能力等级。在该范围内的每个点,我们测量了不同复杂度的场景、流水线和优化下的帧率、运行时行为和功耗,从而能够分析功率-性能关系,例如FPS-功率曲线、每帧能量和每瓦性能。这种方法使我们能够近似模拟从嵌入式和移动级设备到高端消费级系统的各种GPU的性能范围。我们的目标是探索客户端3DGS光栅化的实际下限,并评估其在能量受限环境(包括独立头显和瘦客户端)中部署的潜力。通过此分析,我们提供了对边缘部署3DGS系统可行性的性能-能量权衡的早期见解。

🔬 方法详解

问题定义:论文旨在研究在资源受限的边缘设备上,实时3D高斯溅射渲染的可行性。现有方法通常针对高性能GPU设计,忽略了边缘设备的功耗和计算能力限制,导致无法直接应用。因此,需要研究在不同GPU功耗预算下,3DGS的性能表现,从而找到最佳的性能-能耗平衡点。

核心思路:论文的核心思路是通过GPU仿真技术,在单个高端GPU上模拟不同性能等级的GPU。通过控制GPU的核心频率和功耗上限,可以模拟不同GPU的计算能力。然后,在不同的3DGS场景下,测量帧率、功耗等指标,从而分析性能-能耗关系。这种方法避免了使用多个物理设备进行测试,降低了实验成本。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一个高端GPU作为仿真平台;2) 通过软件控制GPU的核心频率和功耗上限,模拟不同性能等级的GPU;3) 选择多个具有不同复杂度的3DGS场景;4) 在每个模拟的GPU配置下,运行3DGS渲染,并测量帧率、功耗等指标;5) 分析测量数据,得到性能-能耗曲线,评估不同配置下的性能表现。

关键创新:该研究的关键创新在于采用了GPU仿真技术,实现了在单个设备上模拟不同性能等级的GPU。这种方法可以有效地评估3DGS在不同功耗预算下的性能表现,为边缘设备的3DGS部署提供了指导。此外,该研究还系统地分析了不同场景复杂度、渲染管线和优化策略对性能-能耗关系的影响。

关键设计:在GPU仿真方面,论文采用了系统地降低GPU核心频率和施加功率上限的方法,以模拟不同的GPU能力等级。在性能评估方面,论文测量了帧率(FPS)、运行时行为和功耗,并分析了FPS-功率曲线、每帧能量和每瓦性能等指标。这些指标可以全面地反映3DGS在不同配置下的性能表现。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

该研究通过GPU仿真,模拟了不同功耗等级下的3DGS渲染性能。实验结果表明,在较低的功耗预算下,通过优化渲染管线和调整高斯溅射的数量,仍然可以实现可接受的帧率。例如,在模拟低端GPU时,通过降低高斯溅射的数量和采用更高效的渲染算法,可以将帧率提升至30FPS以上,同时保持较低的功耗。

🎯 应用场景

该研究成果可应用于AR/VR头显、移动设备和瘦客户端等边缘设备上的3D内容渲染。通过了解不同功耗预算下的性能表现,开发者可以针对特定设备进行优化,实现更流畅、更节能的3D体验。此外,该研究也有助于云游戏、远程渲染等领域的应用,通过在云端进行高性能渲染,然后在边缘设备上进行低功耗显示,从而降低终端设备的功耗和成本。

📄 摘要(原文)

We investigate the feasibility of real-time 3D Gaussian Splatting (3DGS) rasterisation on edge clients with varying Gaussian splat counts and GPU computational budgets. Instead of evaluating multiple physical devices, we adopt an emulation-based approach that approximates different GPU capability tiers on a single high-end GPU. By systematically under-clocking the GPU core frequency and applying power caps, we emulate a controlled range of floating-point performance levels that approximate different GPU capability tiers. At each point in this range, we measure frame rate, runtime behaviour, and power consumption across scenes of varying complexity, pipelines, and optimisations, enabling analysis of power-performance relationships such as FPS-power curves, energy per frame, and performance per watt. This method allows us to approximate the performance envelope of a diverse class of GPUs, from embedded and mobile-class devices to high-end consumer-grade systems. Our objective is to explore the practical lower bounds of client-side 3DGS rasterisation and assess its potential for deployment in energy-constrained environments, including standalone headsets and thin clients. Through this analysis, we provide early insights into the performance-energy trade-offs that govern the viability of edge-deployed 3DGS systems.