Spectrogram Patch Codec: A 2D Block-Quantized VQ-VAE and HiFi-GAN for Neural Speech Coding

📄 arXiv: 2509.02244v1 📥 PDF

作者: Luis Felipe Chary, Miguel Arjona Ramirez

分类: cs.SD, cs.CL, eess.AS

发布日期: 2025-09-02


💡 一句话要点

提出基于2D块量化VQ-VAE和HiFi-GAN的语音编码方法,简化神经语音编解码器设计。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 神经语音编码 梅尔频谱图 矢量量化 VQ-VAE HiFi-GAN 低延迟 对抗训练 语音合成

📋 核心要点

  1. 现有神经语音编解码器依赖复杂的残差矢量量化(RVQ)堆栈,增加了计算复杂度和延迟。
  2. 论文提出一种基于2D块量化的VQ-VAE,直接在梅尔频谱图上操作,简化量化过程和架构设计。
  3. 实验结果表明,该方法在7.5 kbits/s码率下,实现了与现有技术相当的感知质量和可理解性。

📝 摘要(中文)

本文提出了一种神经语音编解码器,通过引入更简单的单阶段量化方法,挑战了对复杂残差矢量量化(RVQ)堆栈的需求。该方法直接作用于梅尔频谱图,将其视为2D数据,并将非重叠的4x4块量化到单个共享码本中。这种分块设计简化了架构,实现了低延迟流传输,并产生了一个离散的潜在网格。为了确保高保真合成,我们对VQ-VAE进行了后期的对抗微调,并从头开始在编解码器重建的频谱图上训练HiFi-GAN声码器。对于16 kHz语音,该系统以大约7.5 kbits/s的速率运行,并使用STOI、PESQ、MCD和ViSQOL等客观指标与几种最先进的神经编解码器进行了评估。结果表明,我们简化的非残差架构实现了具有竞争力的感知质量和可理解性,验证了其作为未来低延迟编解码器设计的有效和开放的基础。

🔬 方法详解

问题定义:现有的神经语音编解码器通常采用复杂的残差矢量量化(RVQ)堆栈来实现高压缩率和高质量的语音重建。然而,这些复杂的结构会导致较高的计算复杂度和延迟,限制了它们在实时应用中的应用。因此,需要一种更简单、更高效的量化方法,能够在保持语音质量的同时降低计算成本和延迟。

核心思路:本文的核心思路是将梅尔频谱图视为二维图像数据,并采用图像压缩领域常用的分块量化方法。具体来说,将频谱图分割成非重叠的4x4小块,然后将每个小块量化到共享的码本中。这种方法避免了复杂的RVQ结构,简化了量化过程,并降低了计算复杂度。同时,通过对VQ-VAE进行对抗微调,并使用HiFi-GAN声码器,保证了重建语音的高保真度。

技术框架:该编解码器的整体框架包括以下几个主要模块:1) VQ-VAE编码器:将梅尔频谱图编码为离散的潜在表示。2) 2D块量化器:将频谱图分割成4x4小块,并量化到共享码本中。3) VQ-VAE解码器:从离散的潜在表示重建梅尔频谱图。4) HiFi-GAN声码器:将重建的梅尔频谱图合成为语音信号。训练过程包括两个阶段:首先训练VQ-VAE,然后使用对抗训练对VQ-VAE进行微调,并从头开始训练HiFi-GAN声码器。

关键创新:该论文最重要的技术创新点在于将2D块量化方法引入到神经语音编解码器中。与传统的基于矢量量化的方法相比,该方法避免了复杂的RVQ结构,简化了量化过程,并降低了计算复杂度。此外,通过对VQ-VAE进行对抗微调,并使用HiFi-GAN声码器,保证了重建语音的高保真度。

关键设计:该论文的关键设计包括:1) 使用4x4的块大小,在计算复杂度和重建质量之间取得了平衡。2) 使用共享码本,减少了模型参数的数量。3) 使用对抗训练对VQ-VAE进行微调,提高了重建语音的感知质量。4) 从头开始训练HiFi-GAN声码器,使其能够更好地适应编解码器重建的频谱图。

📊 实验亮点

该系统在7.5 kbits/s码率下,通过客观指标STOI、PESQ、MCD和ViSQOL的评估,与多个最先进的神经编解码器相比,实现了具有竞争力的感知质量和可理解性。这表明,即使采用简化的非残差架构,也能达到与复杂模型相当的性能。

🎯 应用场景

该研究成果可应用于低延迟语音通信、实时语音翻译、语音合成等领域。简化的编解码器结构降低了计算复杂度,使其更适合在资源受限的设备上部署,例如移动设备和嵌入式系统。此外,该方法为未来的低延迟神经语音编解码器设计提供了一个有效的开放基础。

📄 摘要(原文)

We present a neural speech codec that challenges the need for complex residual vector quantization (RVQ) stacks by introducing a simpler, single-stage quantization approach. Our method operates directly on the mel-spectrogram, treating it as a 2D data and quantizing non-overlapping 4x4 patches into a single, shared codebook. This patchwise design simplifies the architecture, enables low-latency streaming, and yields a discrete latent grid. To ensure high-fidelity synthesis, we employ a late-stage adversarial fine-tuning for the VQ-VAE and train a HiFi-GAN vocoder from scratch on the codec's reconstructed spectrograms. Operating at approximately 7.5 kbits/s for 16 kHz speech, our system was evaluated against several state-of-the-art neural codecs using objective metrics such as STOI, PESQ, MCD, and ViSQOL. The results demonstrate that our simplified, non-residual architecture achieves competitive perceptual quality and intelligibility, validating it as an effective and open foundation for future low-latency codec designs.