Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement
作者: Gang Yang, Yue Lei, Wenxin Tai, Jin Wu, Jia Chen, Ting Zhong, Fan Zhou
分类: cs.SD, cs.AI, cs.LG, eess.AS
发布日期: 2025-09-19 (更新: 2025-09-22)
备注: 5 pages, 2 figures, submitted to ICASSP 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出COSE:一种基于平均速度流匹配的单步语音增强方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语音增强 流匹配 单步生成 平均速度场 速度合成 MeanFlow 深度学习
📋 核心要点
- 多步扩散模型在语音增强中计算成本高,易受离散化误差影响。
- COSE利用平均速度流匹配,通过速度合成恒等式高效计算平均速度。
- 实验表明COSE采样速度提升5倍,训练成本降低40%,且不损失语音质量。
📝 摘要(中文)
扩散模型和流匹配(FM)模型在语音增强(SE)领域取得了显著进展,但它们对多步生成过程的依赖导致计算成本高昂,并且容易受到离散化误差的影响。最近,单步生成建模方面的进展,特别是MeanFlow,通过平均速度场重新构建动态过程,提供了一种有前景的替代方案。本文提出COSE,一种专为语音增强设计的单步FM框架。为了解决MeanFlow中雅可比向量积(JVP)计算带来的高训练开销,我们引入了一种速度合成恒等式来高效地计算平均速度,消除了昂贵的计算,同时保持了理论一致性,并实现了具有竞争力的增强质量。在标准基准上的大量实验表明,COSE提供了高达5倍的更快采样速度,并将训练成本降低了40%,且不影响语音质量。代码可在https://github.com/ICDM-UESTC/COSE 获取。
🔬 方法详解
问题定义:论文旨在解决语音增强任务中,现有基于扩散模型或流匹配模型的多步生成方法计算复杂度高、推理速度慢的问题。这些方法需要多次迭代才能生成增强后的语音,导致实际应用中效率较低。此外,多步离散化过程也可能引入误差,影响增强效果。
核心思路:论文的核心思路是利用单步流匹配模型MeanFlow,通过学习平均速度场直接将噪声映射到干净语音。为了降低MeanFlow训练过程中雅可比向量积(JVP)计算的复杂度,论文提出了一种速度合成恒等式,避免了昂贵的JVP计算,从而加速训练过程。
技术框架:COSE框架主要包含以下几个部分:1)噪声输入:输入带噪语音的噪声表示;2)平均速度场学习:利用神经网络学习从噪声到干净语音的平均速度场;3)速度合成:使用提出的速度合成恒等式高效计算平均速度,避免JVP计算;4)单步生成:通过一步积分,直接将噪声映射到增强后的语音。
关键创新:论文最重要的技术创新点在于提出了速度合成恒等式,用于高效计算平均速度。该方法避免了MeanFlow中耗时的雅可比向量积(JVP)计算,显著降低了训练成本,同时保持了理论一致性。这是与传统MeanFlow方法最本质的区别。
关键设计:论文的关键设计包括:1)速度合成恒等式的具体形式;2)用于学习平均速度场的神经网络结构,例如可以使用U-Net等结构;3)损失函数的设计,例如可以使用L1或L2损失来衡量生成语音与目标语音之间的差异;4)训练过程中的优化器选择和学习率设置等。
📊 实验亮点
实验结果表明,COSE在标准语音增强数据集上取得了显著的性能提升。与传统的多步扩散模型相比,COSE的采样速度提高了5倍,训练成本降低了40%,同时保持了与现有技术相当甚至更好的语音质量。这些结果验证了COSE在效率和性能方面的优势。
🎯 应用场景
COSE在语音增强领域具有广泛的应用前景,可以应用于语音通信、助听设备、语音识别等场景,提高语音质量和可懂度。该方法降低了计算复杂度,使得实时语音增强成为可能,并有望在资源受限的设备上部署。未来,该技术可以进一步扩展到其他语音处理任务,如语音分离、语音修复等。
📄 摘要(原文)
Diffusion and flow matching (FM) models have achieved remarkable progress in speech enhancement (SE), yet their dependence on multi-step generation is computationally expensive and vulnerable to discretization errors. Recent advances in one-step generative modeling, particularly MeanFlow, provide a promising alternative by reformulating dynamics through average velocity fields. In this work, we present COSE, a one-step FM framework tailored for SE. To address the high training overhead of Jacobian-vector product (JVP) computations in MeanFlow, we introduce a velocity composition identity to compute average velocity efficiently, eliminating expensive computation while preserving theoretical consistency and achieving competitive enhancement quality. Extensive experiments on standard benchmarks show that COSE delivers up to 5x faster sampling and reduces training cost by 40%, all without compromising speech quality. Code is available at https://github.com/ICDM-UESTC/COSE.