Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions

作者: Euiyeon Kim, Yong-Hoon Choi

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-08-20

💡 一句话要点

提出Mamba2模型以解决稀疏区域的声源分离问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 声源分离 音频处理 Mamba2模型 长时间序列 音乐技术 深度学习 状态空间模型

📋 核心要点

现有的声源分离方法，尤其是基于Transformer的模型，常常无法有效捕捉间歇性出现的声乐，导致分离效果不佳。
本文提出了一种基于Mamba2的模型，通过结合带分割策略和双路径架构，能够更好地处理长时间序列的声乐分离问题。
实验结果显示，该模型在cSDR上达到了11.03 dB，超越了当前最先进的模型，并在不同输入条件下表现出稳定性和一致性。

📝 摘要（中文）

本文介绍了一种新型音乐源分离模型，旨在实现准确的声乐隔离。与基于Transformer的方法不同，该模型利用Mamba2这一最新的状态空间模型，更好地捕捉长时间的时间依赖性。为高效处理长输入序列，本文结合了带分割策略与双路径架构。实验结果表明，该方法在cSDR上达到了11.03 dB，超越了现有的最先进模型，并在uSDR上也取得了显著提升。此外，该模型在不同输入长度和声乐出现模式下表现稳定一致，展示了基于Mamba的模型在高分辨率音频处理中的有效性，并为音频研究的更广泛应用开辟了新方向。

🔬 方法详解

问题定义：本文旨在解决声源分离中的声乐隔离问题，现有方法在处理间歇性声乐时表现不佳，导致分离效果不理想。

核心思路：论文提出的核心思路是利用Mamba2模型的优势，结合带分割策略和双路径架构，以更好地捕捉长时间的时间依赖性，从而提高声乐分离的准确性。

技术框架：整体架构包括输入音频的带分割处理，随后通过双路径网络进行特征提取和声源分离，最后输出分离后的声乐和伴奏。

关键创新：最重要的技术创新在于采用Mamba2模型，这一状态空间模型在处理长序列时表现优越，显著改善了声乐的分离效果，与传统的Transformer方法形成鲜明对比。

关键设计：模型设计中，采用了特定的损失函数以优化声乐与伴奏的分离效果，同时在网络结构上进行了优化，以适应长输入序列的处理需求。具体参数设置和网络层数在实验中经过调优，以达到最佳性能。

📊 实验亮点

实验结果表明，提出的模型在cSDR上达到了11.03 dB，超越了现有的最先进模型，并在uSDR上也取得了显著提升。这一性能提升展示了Mamba2模型在高分辨率音频处理中的有效性，尤其是在处理不同输入长度和声乐出现模式时表现出稳定性。

🎯 应用场景

该研究的潜在应用领域包括音乐制作、音频后期处理以及语音识别等。通过提高声乐分离的准确性，该模型能够为音乐创作和音频分析提供更高质量的音频素材，具有重要的实际价值和广泛的应用前景。

📄 摘要（原文）

We introduce a new music source separation model tailored for accurate vocal isolation. Unlike Transformer-based approaches, which often fail to capture intermittently occurring vocals, our model leverages Mamba2, a recent state space model, to better capture long-range temporal dependencies. To handle long input sequences efficiently, we combine a band-splitting strategy with a dual-path architecture. Experiments show that our approach outperforms recent state-of-the-art models, achieving a cSDR of 11.03 dB-the best reported to date-and delivering substantial gains in uSDR. Moreover, the model exhibits stable and consistent performance across varying input lengths and vocal occurrence patterns. These results demonstrate the effectiveness of Mamba-based models for high-resolution audio processing and open up new directions for broader applications in audio research.

Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册