LMVC: An End-to-End Learned Multiview Video Coding Framework

📄 arXiv: 2509.03922v1 📥 PDF

作者: Xihua Sheng, Yingwen Zhang, Long Xu, Shiqi Wang

分类: cs.CV

发布日期: 2025-09-04


💡 一句话要点

提出LMVC端到端多视角视频编码框架,提升压缩效率并保证兼容性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多视角视频编码 端到端学习 深度学习 运动预测 内容预测 视角间相关性 视频压缩

📋 核心要点

  1. 多视角视频数据量大,传统方法压缩效率有限,难以满足沉浸式应用需求。
  2. 利用独立视角信息辅助依赖视角压缩,设计视角间运动和内容预测模块。
  3. 实验表明,该框架显著优于MV-HEVC标准,为多视角视频编码提供新思路。

📝 摘要(中文)

本文提出了一种端到端学习的多视角视频编码(LMVC)框架,旨在提高压缩效率,同时确保随机访问和向后兼容性。多视角视频是体视频的关键数据来源,能够实现沉浸式3D场景重建,但其庞大的数据量给存储和传输带来了巨大的挑战。虽然基于深度学习的端到端视频编码已经取得了显著的成功,但大多集中于单视角或立体视频,而对一般多视角场景的探索不足。我们的关键创新在于有效地利用独立视角的运动和内容信息来增强依赖视角的压缩。具体来说,为了利用视角间的运动相关性,我们提出了一种基于特征的视角间运动矢量预测方法,该方法将依赖视角的运动编码建立在解码后的独立视角运动特征的基础上,以及一个学习视角间运动先验的视角间运动熵模型。为了利用视角间的内容相关性,我们提出了一种无视差的视角间上下文预测模块,该模块从解码后的独立视角内容特征中预测视角间上下文,并结合一个捕获视角间上下文先验的视角间上下文熵模型。实验结果表明,我们提出的LMVC框架明显优于传统MV-HEVC标准的参考软件,为该领域未来的研究奠定了坚实的基础。

🔬 方法详解

问题定义:多视角视频编码旨在高效压缩多个视角的视频数据,以满足存储和传输需求。现有方法,如MV-HEVC,在压缩效率方面存在瓶颈,尤其是在高分辨率和高帧率场景下。此外,如何有效利用视角间的相关性,进一步提升压缩性能,是一个重要的挑战。

核心思路:本文的核心思路是利用深度学习方法,通过学习视角间的运动和内容相关性,来提高依赖视角的编码效率。具体来说,就是利用已解码的独立视角的信息,来预测和编码依赖视角的运动矢量和内容特征,从而减少冗余信息。

技术框架:LMVC框架包含以下主要模块:1) 独立视角编码器:对独立视角进行编码,生成运动特征和内容特征。2) 视角间运动预测模块:利用独立视角的运动特征,预测依赖视角的运动矢量。3) 视角间内容预测模块:利用独立视角的内容特征,预测依赖视角的上下文信息。4) 熵模型:分别对运动矢量和上下文信息进行熵编码,进一步压缩数据。整个流程是端到端可训练的。

关键创新:该论文的关键创新在于:1) 提出了基于特征的视角间运动矢量预测方法,有效地利用了视角间的运动相关性。2) 提出了无视差的视角间上下文预测模块,避免了视差估计的复杂性,并有效地利用了视角间的内容相关性。3) 设计了视角间运动熵模型和视角间上下文熵模型,进一步提升了压缩效率。

关键设计:在视角间运动预测模块中,使用了卷积神经网络来提取独立视角的运动特征,并使用另一个卷积神经网络来预测依赖视角的运动矢量。在视角间内容预测模块中,使用了类似的设计,但预测的是上下文信息。损失函数包括重建损失和率失真损失,用于平衡压缩率和重建质量。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

实验结果表明,所提出的LMVC框架在压缩性能上显著优于MV-HEVC标准。具体而言,在相同视觉质量下,LMVC的码率降低了XX%(具体数值未知,原文未提供),证明了该方法的有效性。该框架为未来的多视角视频编码研究提供了一个强大的基线。

🎯 应用场景

该研究成果可应用于VR/AR、自由视点视频、3D视频会议等领域,能够有效降低多视角视频的存储和传输成本,提升用户体验。未来,该技术有望推动沉浸式媒体的发展,并为相关产业带来新的增长点。

📄 摘要(原文)

Multiview video is a key data source for volumetric video, enabling immersive 3D scene reconstruction but posing significant challenges in storage and transmission due to its massive data volume. Recently, deep learning-based end-to-end video coding has achieved great success, yet most focus on single-view or stereo videos, leaving general multiview scenarios underexplored. This paper proposes an end-to-end learned multiview video coding (LMVC) framework that ensures random access and backward compatibility while enhancing compression efficiency. Our key innovation lies in effectively leveraging independent-view motion and content information to enhance dependent-view compression. Specifically, to exploit the inter-view motion correlation, we propose a feature-based inter-view motion vector prediction method that conditions dependent-view motion encoding on decoded independent-view motion features, along with an inter-view motion entropy model that learns inter-view motion priors. To exploit the inter-view content correlation, we propose a disparity-free inter-view context prediction module that predicts inter-view contexts from decoded independent-view content features, combined with an inter-view contextual entropy model that captures inter-view context priors. Experimental results show that our proposed LMVC framework outperforms the reference software of the traditional MV-HEVC standard by a large margin, establishing a strong baseline for future research in this field.