Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

📄 arXiv: 2603.05310v1 📥 PDF

作者: Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou, Yi-Cheng Lin, Bing-Yu Chen, Yun-Nung Chen, Hung-Yi Lee, Shang-Tse Chen

分类: cs.SD, cs.AI

发布日期: 2026-03-05


💡 一句话要点

提出Latent-Mark,一种对神经重合成具有鲁棒性的音频水印框架。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音频水印 神经重合成 潜在空间 鲁棒性 零样本学习 跨编解码器优化 数字版权管理

📋 核心要点

  1. 现有音频水印技术易受神经重合成攻击,因神经编解码器会丢弃水印的细微波形变化。
  2. Latent-Mark通过在编解码器的不变潜在空间中嵌入水印,实现对语义压缩的鲁棒性。
  3. 实验表明,Latent-Mark对未见过的神经编解码器具有零样本迁移能力,并能抵抗传统DSP攻击。

📝 摘要(中文)

现有的音频水印技术虽然在对抗传统数字信号处理(DSP)攻击方面表现出很强的鲁棒性,但它们仍然容易受到神经重合成的影响。这是因为现代神经音频编解码器充当语义滤波器,并丢弃先前水印方法中使用的难以察觉的波形变化。为了解决这个局限性,我们提出了Latent-Mark,这是第一个旨在在语义压缩中幸存下来的零比特音频水印框架。我们的关键见解是,对编码-解码过程的鲁棒性需要在编解码器的不变潜在空间中嵌入水印。我们通过优化音频波形以诱导其编码潜在表示中可检测的方向偏移来实现这一点,同时约束扰动以与自然音频流形对齐,以确保不可感知性。为了防止过度拟合到单个编解码器的量化规则,我们引入了跨编解码器优化,从而在多个代理编解码器上联合优化波形,以针对共享的潜在不变性。广泛的评估表明,对未见过的神经编解码器具有强大的零样本迁移能力,在保持感知不可感知性的同时,实现了最先进的对抗传统DSP攻击的弹性。我们的工作启发了未来对通用水印框架的研究,该框架能够跨越日益复杂和多样化的生成失真来维持完整性。

🔬 方法详解

问题定义:现有音频水印技术在对抗传统数字信号处理(DSP)攻击方面表现良好,但对基于深度学习的神经音频编解码器非常脆弱。这些神经编解码器会将音频压缩到潜在空间,并丢弃细微的波形变化,而这些变化正是传统水印技术所依赖的。因此,需要一种新的水印方法,能够在经过神经编解码器的压缩和解压缩后仍然保持水印的完整性。

核心思路:Latent-Mark的核心思路是将水印嵌入到音频编解码器的潜在空间中,而不是直接修改音频波形。通过在潜在空间中引入可检测的方向偏移,即使音频经过压缩和解压缩,水印信息仍然可以被保留。同时,为了保证水印的不可感知性,需要约束对音频波形的修改,使其与自然音频流形对齐。

技术框架:Latent-Mark框架主要包含以下几个步骤:1) 选择一个或多个神经音频编解码器作为代理模型。2) 通过优化算法,对原始音频波形进行微小的修改,使得修改后的音频在经过编解码器编码后,其潜在表示产生一个特定的方向偏移。3) 在解码端,通过检测潜在表示的方向偏移来提取水印信息。为了提高鲁棒性,采用了跨编解码器优化策略,即同时针对多个不同的编解码器进行优化。

关键创新:Latent-Mark的关键创新在于将水印嵌入到神经音频编解码器的潜在空间中。与传统方法直接修改波形不同,Latent-Mark通过控制潜在表示的方向偏移来嵌入水印,从而实现了对神经重合成的鲁棒性。此外,跨编解码器优化策略进一步提高了水印的泛化能力,使其能够抵抗未见过的编解码器。

关键设计:Latent-Mark的关键设计包括:1) 使用对抗训练的方式来优化音频波形,目标是使潜在表示产生特定的方向偏移,同时保证音频的感知质量。2) 引入跨编解码器优化,即同时针对多个不同的编解码器进行优化,以提高水印的泛化能力。3) 使用损失函数来约束对音频波形的修改,使其与自然音频流形对齐,从而保证水印的不可感知性。具体的损失函数包括感知损失、对抗损失和正则化损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Latent-Mark在对抗神经重合成攻击方面表现出色,实现了最先进的鲁棒性。实验结果表明,Latent-Mark对未见过的神经编解码器具有强大的零样本迁移能力,同时保持了良好的感知不可感知性。此外,Latent-Mark在对抗传统DSP攻击方面也表现出很强的竞争力,优于或媲美现有的水印技术。

🎯 应用场景

Latent-Mark技术可应用于数字版权管理(DRM)、音频内容认证、溯源和防伪等领域。例如,可以用于保护音乐、语音等音频内容的版权,防止未经授权的复制和传播。此外,还可以用于验证音频内容的真实性,防止篡改和伪造。该技术在保护知识产权和维护信息安全方面具有重要的应用价值和潜力。

📄 摘要(原文)

While existing audio watermarking techniques have achieved strong robustness against traditional digital signal processing (DSP) attacks, they remain vulnerable to neural resynthesis. This occurs because modern neural audio codecs act as semantic filters and discard the imperceptible waveform variations used in prior watermarking methods. To address this limitation, we propose Latent-Mark, the first zero-bit audio watermarking framework designed to survive semantic compression. Our key insight is that robustness to the encode-decode process requires embedding the watermark within the codec's invariant latent space. We achieve this by optimizing the audio waveform to induce a detectable directional shift in its encoded latent representation, while constraining perturbations to align with the natural audio manifold to ensure imperceptibility. To prevent overfitting to a single codec's quantization rules, we introduce Cross-Codec Optimization, jointly optimizing the waveform across multiple surrogate codecs to target shared latent invariants. Extensive evaluations demonstrate robust zero-shot transferability to unseen neural codecs, achieving state-of-the-art resilience against traditional DSP attacks while preserving perceptual imperceptibility. Our work inspires future research into universal watermarking frameworks capable of maintaining integrity across increasingly complex and diverse generative distortions.