GEMM-GS: Accelerating 3D Gaussian Splatting on Tensor Cores with GEMM-Compatible Blending
作者: Haomin Li, Bowen Zhu, Fangxin Liu, Zongwu Wang, Xinran Liang, Li Jiang, Haibing Guan
分类: cs.AR, cs.GR
发布日期: 2026-04-07
💡 一句话要点
提出GEMM-GS以加速3D高斯点云渲染
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯点云 神经辐射场 GPU加速 张量核心 CUDA 实时渲染 计算机视觉
📋 核心要点
- 现有的3D高斯点云渲染方法在实时性上存在不足,尤其是在渲染延迟方面。
- 本文提出GEMM-GS,通过将3DGS的混合过程重构为GEMM兼容形式,利用现代GPU的张量核心加速渲染。
- 实验结果显示,GEMM-GS在性能上显著提升,相比传统3DGS加速1.42倍,并与其他加速方法结合时进一步提升1.47倍。
📝 摘要(中文)
神经辐射场(NeRF)能够从多张2D图像重建3D场景,但其点采样设计导致高渲染延迟。3D高斯点云(3DGS)通过显式场景表示和优化管道改善了NeRF,但仍未满足实时需求。现有加速方法忽视了现代GPU的张量核心,因为3DGS管道缺乏通用矩阵乘法(GEMM)操作。本文提出GEMM-GS,一种利用GPU张量核心的加速方法,通过GEMM友好的混合变换将3DGS混合过程等效重构为GEMM兼容形式。设计了高性能CUDA内核,集成了三阶段双缓冲管道,重叠计算和内存访问。实验表明,GEMM-GS相比于传统3DGS实现了1.42倍的加速,并在结合现有加速方法时平均提供了1.47倍的额外加速。
🔬 方法详解
问题定义:本文旨在解决3D高斯点云渲染中的高渲染延迟问题,现有3DGS方法未能充分利用现代GPU的张量核心,导致性能瓶颈。
核心思路:GEMM-GS的核心思路是将3DGS的混合过程重构为GEMM兼容的形式,从而能够利用GPU的张量核心进行加速。这种设计使得计算过程更加高效,能够显著降低渲染时间。
技术框架:GEMM-GS的整体架构包括三个主要模块:首先是数据准备阶段,其次是GEMM兼容的混合变换,最后是高性能CUDA内核的执行。该框架通过双缓冲技术重叠计算和内存访问,提高了数据处理效率。
关键创新:本文的主要创新在于将3DGS的混合过程转化为GEMM操作,使得可以充分利用张量核心的并行计算能力。这一方法与传统的3DGS方法在计算架构上有本质区别,显著提升了渲染速度。
关键设计:在设计中,采用了三阶段双缓冲管道,优化了内存访问模式,并通过CUDA内核实现了高效的并行计算。此外,参数设置和损失函数的选择也经过精心调整,以确保最佳性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GEMM-GS相比于传统3DGS实现了1.42倍的速度提升,并在与现有加速方法结合时,平均提供了1.47倍的额外加速。这些结果表明该方法在实际应用中具有显著的性能优势。
🎯 应用场景
该研究的潜在应用领域包括虚拟现实、游戏开发、电影特效制作等需要实时3D场景渲染的行业。通过加速3D高斯点云渲染,能够提升用户体验,降低渲染成本,推动相关技术的实际应用和发展。
📄 摘要(原文)
Neural Radiance Fields (NeRF) enables 3D scene reconstruction from several 2D images but incurs high rendering latency via its point-sampling design. 3D Gaussian Splatting (3DGS) improves on NeRF with explicit scene representation and an optimized pipeline yet still fails to meet practical real-time demands. Existing acceleration works overlook the evolving Tensor Cores of modern GPUs because 3DGS pipeline lacks General Matrix Multiplication (GEMM) operations. This paper proposes GEMM-GS, an acceleration approach utilizing tensor cores on GPUs via GEMM-friendly blending transformation. It equivalently reformulates the 3DGS blending process into a GEMM-compatible form to utilize Tensor Cores. A high-performance CUDA kernel is designed, integrating a three-stage double-buffered pipeline that overlaps computation and memory access. Extensive experiments show that GEMM-GS achieves $1.42\times$ speedup over vanilla 3DGS and provides an additional $1.47\times$ speedup on average when combining with existing acceleration approaches. Code is released atthis https URL.