StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

作者: Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng

分类: eess.AS, cs.AI, eess.SP

发布日期: 2026-03-06

💡 一句话要点

提出StreamVoiceAnon+，通过帧级别声学蒸馏实现情感保留的流式语音匿名化

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 语音匿名化 情感保留 流式处理 声学蒸馏 神经音频编解码 监督微调 隐私保护

📋 核心要点

现有神经音频编解码语言模型在流式语音匿名化中，难以保留原始语音中的情感信息，导致情感表达失真。
通过引入监督微调和帧级别情感蒸馏，StreamVoiceAnon+能够有效保留语音中的情感信息，同时实现语音匿名化。
实验表明，StreamVoiceAnon+在情感保留方面显著优于基线方法，UAR相对提升高达24%，同时保持了良好的隐私性和可懂度。

📝 摘要（中文）

本文旨在解决流式语音匿名化（SA）中情感内容保留的挑战。为音频延续训练的神经音频编解码语言模型容易降低源情感：内容tokens丢弃情感信息，模型倾向于使用主要的声学模式，而不是保留副语言属性。我们提出了一种监督微调方法，使用来自同一说话人的中性情感话语对，并结合帧级别的声学token隐藏状态上的情感蒸馏。所有修改都仅限于微调，在4个GPU上花费不到2小时，并且增加了零推理延迟开销，同时保持了具有竞争力的180ms流式延迟。在VoicePrivacy 2024协议上，我们的方法实现了49.2%的UAR（情感保留）和5.77%的WER（可懂度），相对于基线（39.7%->49.2%）提高了+24%的相对UAR，相对于情感提示变体（44.6% UAR）提高了+10%，同时保持了强大的隐私性（EER 49.0%）。演示和代码可在https://anonymous3842031239.github.io/上找到。

🔬 方法详解

问题定义：论文旨在解决流式语音匿名化过程中情感信息丢失的问题。现有的神经音频编解码语言模型在进行语音匿名化时，往往会忽略或弱化语音中的情感特征，导致匿名化后的语音情感表达不自然，影响用户体验。

核心思路：论文的核心思路是通过监督微调和帧级别的情感蒸馏，使模型能够更好地学习和保留语音中的情感信息。具体来说，利用同一说话人的中性情感话语对进行微调，引导模型学习说话人身份和情感之间的解耦表示。同时，通过帧级别的情感蒸馏，将情感信息从原始语音传递到匿名化后的语音。

技术框架：StreamVoiceAnon+的整体框架基于神经音频编解码语言模型。首先，使用中性情感话语对进行监督微调，增强模型对情感信息的建模能力。然后，在帧级别上进行情感蒸馏，将原始语音的情感信息传递到匿名化后的语音。整个过程在微调阶段完成，不影响推理阶段的延迟。

关键创新：该方法最重要的创新点在于结合了监督微调和帧级别的情感蒸馏，实现了情感保留的流式语音匿名化。与现有方法相比，该方法能够在保持语音隐私性的同时，显著提高情感保留的性能。

关键设计：关键设计包括：1) 使用中性情感话语对进行监督微调，损失函数旨在最小化原始语音和匿名化语音之间的情感差异；2) 在帧级别上进行情感蒸馏，利用原始语音的声学token隐藏状态作为情感信息的指导信号；3) 所有修改都限制在微调阶段，保证了推理阶段的低延迟。

🖼️ 关键图片

📊 实验亮点

StreamVoiceAnon+在VoicePrivacy 2024协议上取得了显著的性能提升。情感保留指标UAR达到49.2%，相对于基线方法提高了24%（从39.7%提升至49.2%），相对于情感提示变体提高了10%（从44.6%提升至49.2%）。同时，该方法保持了良好的语音可懂度（WER为5.77%）和隐私性（EER为49.0%）。

🎯 应用场景

StreamVoiceAnon+在保护用户隐私的同时，能够保留语音中的情感信息，具有广泛的应用前景。例如，在客户服务、在线教育、心理咨询等领域，可以在保护用户身份信息的前提下，分析用户的情感状态，提供更个性化的服务。此外，该技术还可以应用于语音助手、智能家居等场景，提升用户体验。

📄 摘要（原文）

We address the challenge of preserving emotional content in streaming speaker anonymization (SA). Neural audio codec language models trained for audio continuation tend to degrade source emotion: content tokens discard emotional information, and the model defaults to dominant acoustic patterns rather than preserving paralinguistic attributes. We propose supervised finetuning with neutral-emotion utterance pairs from the same speaker, combined with frame-level emotion distillation on acoustic token hidden states. All modifications are confined to finetuning, which takes less than 2 hours on 4 GPUs and adds zero inference latency overhead, while maintaining a competitive 180ms streaming latency. On the VoicePrivacy 2024 protocol, our approach achieves a 49.2% UAR (emotion preservation) with 5.77% WER (intelligibility), a +24% relative UAR improvement over the baseline (39.7%->49.2%) and +10% over the emotion-prompt variant (44.6% UAR), while maintaining strong privacy (EER 49.0%). Demo and code are available: https://anonymous3842031239.github.io/

StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理