StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation
作者: Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng
分类: eess.AS, cs.AI, eess.SP
发布日期: 2026-03-06
💡 一句话要点
提出StreamVoiceAnon+,通过帧级别声学蒸馏实现情感保留的流式语音匿名化
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语音匿名化 情感保留 流式处理 声学蒸馏 神经音频编解码 监督微调 隐私保护
📋 核心要点
- 现有神经音频编解码语言模型在流式语音匿名化中,难以保留原始语音中的情感信息,导致情感表达失真。
- 通过引入监督微调和帧级别情感蒸馏,StreamVoiceAnon+能够有效保留语音中的情感信息,同时实现语音匿名化。
- 实验表明,StreamVoiceAnon+在情感保留方面显著优于基线方法,UAR相对提升高达24%,同时保持了良好的隐私性和可懂度。
📝 摘要(中文)
本文旨在解决流式语音匿名化(SA)中情感内容保留的挑战。为音频延续训练的神经音频编解码语言模型容易降低源情感:内容tokens丢弃情感信息,模型倾向于使用主要的声学模式,而不是保留副语言属性。我们提出了一种监督微调方法,使用来自同一说话人的中性情感话语对,并结合帧级别的声学token隐藏状态上的情感蒸馏。所有修改都仅限于微调,在4个GPU上花费不到2小时,并且增加了零推理延迟开销,同时保持了具有竞争力的180ms流式延迟。在VoicePrivacy 2024协议上,我们的方法实现了49.2%的UAR(情感保留)和5.77%的WER(可懂度),相对于基线(39.7%->49.2%)提高了+24%的相对UAR,相对于情感提示变体(44.6% UAR)提高了+10%,同时保持了强大的隐私性(EER 49.0%)。演示和代码可在https://anonymous3842031239.github.io/上找到。
🔬 方法详解
问题定义:论文旨在解决流式语音匿名化过程中情感信息丢失的问题。现有的神经音频编解码语言模型在进行语音匿名化时,往往会忽略或弱化语音中的情感特征,导致匿名化后的语音情感表达不自然,影响用户体验。
核心思路:论文的核心思路是通过监督微调和帧级别的情感蒸馏,使模型能够更好地学习和保留语音中的情感信息。具体来说,利用同一说话人的中性情感话语对进行微调,引导模型学习说话人身份和情感之间的解耦表示。同时,通过帧级别的情感蒸馏,将情感信息从原始语音传递到匿名化后的语音。
技术框架:StreamVoiceAnon+的整体框架基于神经音频编解码语言模型。首先,使用中性情感话语对进行监督微调,增强模型对情感信息的建模能力。然后,在帧级别上进行情感蒸馏,将原始语音的情感信息传递到匿名化后的语音。整个过程在微调阶段完成,不影响推理阶段的延迟。
关键创新:该方法最重要的创新点在于结合了监督微调和帧级别的情感蒸馏,实现了情感保留的流式语音匿名化。与现有方法相比,该方法能够在保持语音隐私性的同时,显著提高情感保留的性能。
关键设计:关键设计包括:1) 使用中性情感话语对进行监督微调,损失函数旨在最小化原始语音和匿名化语音之间的情感差异;2) 在帧级别上进行情感蒸馏,利用原始语音的声学token隐藏状态作为情感信息的指导信号;3) 所有修改都限制在微调阶段,保证了推理阶段的低延迟。
🖼️ 关键图片
📊 实验亮点
StreamVoiceAnon+在VoicePrivacy 2024协议上取得了显著的性能提升。情感保留指标UAR达到49.2%,相对于基线方法提高了24%(从39.7%提升至49.2%),相对于情感提示变体提高了10%(从44.6%提升至49.2%)。同时,该方法保持了良好的语音可懂度(WER为5.77%)和隐私性(EER为49.0%)。
🎯 应用场景
StreamVoiceAnon+在保护用户隐私的同时,能够保留语音中的情感信息,具有广泛的应用前景。例如,在客户服务、在线教育、心理咨询等领域,可以在保护用户身份信息的前提下,分析用户的情感状态,提供更个性化的服务。此外,该技术还可以应用于语音助手、智能家居等场景,提升用户体验。
📄 摘要(原文)
We address the challenge of preserving emotional content in streaming speaker anonymization (SA). Neural audio codec language models trained for audio continuation tend to degrade source emotion: content tokens discard emotional information, and the model defaults to dominant acoustic patterns rather than preserving paralinguistic attributes. We propose supervised finetuning with neutral-emotion utterance pairs from the same speaker, combined with frame-level emotion distillation on acoustic token hidden states. All modifications are confined to finetuning, which takes less than 2 hours on 4 GPUs and adds zero inference latency overhead, while maintaining a competitive 180ms streaming latency. On the VoicePrivacy 2024 protocol, our approach achieves a 49.2% UAR (emotion preservation) with 5.77% WER (intelligibility), a +24% relative UAR improvement over the baseline (39.7%->49.2%) and +10% over the emotion-prompt variant (44.6% UAR), while maintaining strong privacy (EER 49.0%). Demo and code are available: https://anonymous3842031239.github.io/