CPSL: Representing Volumetric Video via Content-Promoted Scene Layers
作者: Kaiyuan Hu, Yili Jin, Junhua Liu, Xize Duan, Hong Kang, Xue Liu
分类: cs.CV, cs.MM
发布日期: 2025-11-18
💡 一句话要点
提出内容驱动的场景层CPSL,用于高效表示和渲染体积视频。
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 体积视频 2.5D表示 场景图层 新视角合成 深度估计 内容显著性 实时渲染
📋 核心要点
- 现有体积视频表示方法计算成本高昂,限制了其在实时通信和按需视频中的应用。
- CPSL将每帧分解为少量几何一致的图层,利用深度和显著性信息,实现高效的2.5D视频表示。
- 实验表明,CPSL在感知质量和边界保真度方面优于现有方法,同时显著降低了存储和渲染成本。
📝 摘要(中文)
体积视频通过支持自由视点探索和逼真的运动视差,实现了沉浸式和交互式视觉体验。然而,现有的体积表示方法,从显式点云到隐式神经场,在捕获、计算和渲染方面仍然成本高昂,这限制了它们在按需视频中的可扩展性,并降低了它们在实时通信中的可行性。为了弥合这一差距,我们提出了内容驱动的场景层(CPSL),这是一种紧凑的2.5D视频表示,将体积视频的感知优势带到传统的2D内容中。在每帧深度和内容显著性的指导下,CPSL将每帧分解为一小组具有几何一致性的图层,这些图层配备了软alpha带和边缘深度缓存,共同保持遮挡顺序和边界连续性。这些轻量级的、可2D编码的资产,通过深度加权扭曲和前向后alpha合成,实现视差校正的新视角合成,绕过了昂贵的3D重建。在时间上,CPSL使用运动引导的传播和每层编码来保持帧间连贯性,支持使用标准视频编解码器的实时播放。在多个基准测试中,与基于图层和神经场的基线相比,CPSL实现了卓越的感知质量和边界保真度,同时降低了存储和渲染成本数倍。我们的方法为从2D视频到可扩展的2.5D沉浸式媒体提供了一条切实可行的路径。
🔬 方法详解
问题定义:现有体积视频表示方法,如点云和神经场,在捕获、计算和渲染上成本很高,难以满足实时性和可扩展性的需求。尤其是在边界细节和遮挡关系的处理上,现有方法往往不够精确,影响用户体验。
核心思路:CPSL的核心思想是将体积视频转换为一组具有几何一致性的2.5D图层,每个图层包含颜色、深度和透明度信息。通过这种方式,可以利用现有的2D视频编码技术进行压缩和传输,同时保留一定的3D信息,用于新视角的合成。这种方法避免了复杂的3D重建,降低了计算复杂度。
技术框架:CPSL的整体框架包括以下几个主要阶段:1) 深度估计:使用深度估计网络从2D视频中估计每帧的深度图。2) 图层分解:基于深度和内容显著性,将每帧分解为多个图层。3) 图层编码:对每个图层进行颜色、深度和透明度编码,并使用视频编解码器进行压缩。4) 新视角合成:使用深度加权扭曲和前向后alpha合成,从编码后的图层中合成新视角的图像。
关键创新:CPSL的关键创新在于其内容驱动的图层分解策略。通过结合深度信息和内容显著性,CPSL能够更准确地将图像分解为具有语义意义的图层,从而更好地保留图像的结构和细节。此外,CPSL还引入了边缘深度缓存,用于保持边界的连续性。
关键设计:在图层分解阶段,CPSL使用了一种基于能量最小化的方法,将图像分割为多个图层。能量函数包括数据项、平滑项和显著性项,分别用于保证图层与原始图像的相似性、图层内部的平滑性和图层与显著性区域的对齐。在深度加权扭曲阶段,CPSL使用了一种基于深度值的加权平均方法,将不同图层的像素投影到新视角中。权重值与深度值成反比,从而保证了遮挡关系的正确性。
📊 实验亮点
实验结果表明,CPSL在多个基准测试中取得了优于现有方法的性能。与基于图层的方法相比,CPSL在感知质量和边界保真度方面有显著提升。与神经场方法相比,CPSL在存储和渲染成本方面降低了数倍。例如,在某些场景下,CPSL可以将存储成本降低到神经场方法的1/10,同时保持相当的视觉质量。
🎯 应用场景
CPSL可应用于多种场景,如虚拟现实、增强现实、自由视点视频、远程呈现等。它可以降低体积视频的存储和传输成本,提高渲染效率,从而促进体积视频的普及和应用。例如,在VR/AR游戏中,可以使用CPSL来表示游戏场景,从而提高游戏的沉浸感和交互性。在远程呈现中,可以使用CPSL来传输用户的3D形象,从而实现更逼真的远程交流。
📄 摘要(原文)
Volumetric video enables immersive and interactive visual experiences by supporting free viewpoint exploration and realistic motion parallax. However, existing volumetric representations from explicit point clouds to implicit neural fields, remain costly in capture, computation, and rendering, which limits their scalability for on-demand video and reduces their feasibility for real-time communication. To bridge this gap, we propose Content-Promoted Scene Layers (CPSL), a compact 2.5D video representation that brings the perceptual benefits of volumetric video to conventional 2D content. Guided by per-frame depth and content saliency, CPSL decomposes each frame into a small set of geometry-consistent layers equipped with soft alpha bands and an edge-depth cache that jointly preserve occlusion ordering and boundary continuity. These lightweight, 2D-encodable assets enable parallax-corrected novel-view synthesis via depth-weighted warping and front-to-back alpha compositing, bypassing expensive 3D reconstruction. Temporally, CPSL maintains inter-frame coherence using motion-guided propagation and per-layer encoding, supporting real-time playback with standard video codecs. Across multiple benchmarks, CPSL achieves superior perceptual quality and boundary fidelity compared with layer-based and neural-field baselines while reducing storage and rendering cost by several folds. Our approach offer a practical path from 2D video to scalable 2.5D immersive media.