GEMM-GS: Accelerating 3D Gaussian Splatting on Tensor Cores with GEMM-Compatible Blending

作者: Haomin Li, Bowen Zhu, Fangxin Liu, Zongwu Wang, Xinran Liang, Li Jiang, Haibing Guan

分类: cs.AR, cs.GR

发布日期: 2026-04-07

💡 一句话要点

提出GEMM-GS以加速3D高斯点云渲染

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D高斯点云 神经辐射场 GPU加速 张量核心 CUDA 实时渲染 计算机视觉

📋 核心要点

现有的3D高斯点云渲染方法在实时性上存在不足，尤其是在渲染延迟方面。
本文提出GEMM-GS，通过将3DGS的混合过程重构为GEMM兼容形式，利用现代GPU的张量核心加速渲染。
实验结果显示，GEMM-GS在性能上显著提升，相比传统3DGS加速1.42倍，并与其他加速方法结合时进一步提升1.47倍。

📝 摘要（中文）

神经辐射场（NeRF）能够从多张2D图像重建3D场景，但其点采样设计导致高渲染延迟。3D高斯点云（3DGS）通过显式场景表示和优化管道改善了NeRF，但仍未满足实时需求。现有加速方法忽视了现代GPU的张量核心，因为3DGS管道缺乏通用矩阵乘法（GEMM）操作。本文提出GEMM-GS，一种利用GPU张量核心的加速方法，通过GEMM友好的混合变换将3DGS混合过程等效重构为GEMM兼容形式。设计了高性能CUDA内核，集成了三阶段双缓冲管道，重叠计算和内存访问。实验表明，GEMM-GS相比于传统3DGS实现了1.42倍的加速，并在结合现有加速方法时平均提供了1.47倍的额外加速。

🔬 方法详解

问题定义：本文旨在解决3D高斯点云渲染中的高渲染延迟问题，现有3DGS方法未能充分利用现代GPU的张量核心，导致性能瓶颈。

核心思路：GEMM-GS的核心思路是将3DGS的混合过程重构为GEMM兼容的形式，从而能够利用GPU的张量核心进行加速。这种设计使得计算过程更加高效，能够显著降低渲染时间。

技术框架：GEMM-GS的整体架构包括三个主要模块：首先是数据准备阶段，其次是GEMM兼容的混合变换，最后是高性能CUDA内核的执行。该框架通过双缓冲技术重叠计算和内存访问，提高了数据处理效率。

关键创新：本文的主要创新在于将3DGS的混合过程转化为GEMM操作，使得可以充分利用张量核心的并行计算能力。这一方法与传统的3DGS方法在计算架构上有本质区别，显著提升了渲染速度。

关键设计：在设计中，采用了三阶段双缓冲管道，优化了内存访问模式，并通过CUDA内核实现了高效的并行计算。此外，参数设置和损失函数的选择也经过精心调整，以确保最佳性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GEMM-GS相比于传统3DGS实现了1.42倍的速度提升，并在与现有加速方法结合时，平均提供了1.47倍的额外加速。这些结果表明该方法在实际应用中具有显著的性能优势。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、游戏开发、电影特效制作等需要实时3D场景渲染的行业。通过加速3D高斯点云渲染，能够提升用户体验，降低渲染成本，推动相关技术的实际应用和发展。

📄 摘要（原文）

Neural Radiance Fields (NeRF) enables 3D scene reconstruction from several 2D images but incurs high rendering latency via its point-sampling design. 3D Gaussian Splatting (3DGS) improves on NeRF with explicit scene representation and an optimized pipeline yet still fails to meet practical real-time demands. Existing acceleration works overlook the evolving Tensor Cores of modern GPUs because 3DGS pipeline lacks General Matrix Multiplication (GEMM) operations. This paper proposes GEMM-GS, an acceleration approach utilizing tensor cores on GPUs via GEMM-friendly blending transformation. It equivalently reformulates the 3DGS blending process into a GEMM-compatible form to utilize Tensor Cores. A high-performance CUDA kernel is designed, integrating a three-stage double-buffered pipeline that overlaps computation and memory access. Extensive experiments show that GEMM-GS achieves $1.42\times$ speedup over vanilla 3DGS and provides an additional $1.47\times$ speedup on average when combining with existing acceleration approaches. Code is released atthis https URL.

GEMM-GS: Accelerating 3D Gaussian Splatting on Tensor Cores with GEMM-Compatible Blending

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理