Online Symbolic Music Alignment with Offline Reinforcement Learning

作者: Silvan David Peter

分类: cs.SD, cs.LG, eess.AS

发布日期: 2023-12-31

期刊: Proceedings of the 24th International Society for Music Information Retrieval Conference, {ISMIR} 2023, Milan, Italy, November 5-9, 2023

DOI: 10.5281/zenodo.10265367

💡 一句话要点

提出基于离线强化学习的在线符号音乐对齐方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 符号音乐对齐 强化学习 离线学习 在线算法 乐谱跟踪

📋 核心要点

现有符号音乐对齐方法难以兼顾准确性和实时性，尤其是在处理复杂音乐时。
利用离线强化学习训练Agent，使其能够根据乐谱和演奏上下文迭代估计乐谱位置。
实验表明，该方法在乐谱位置识别、在线音符对齐和实时乐谱跟踪方面均表现良好，并超越了现有离线方法。

📝 摘要（中文）

本文提出了一种基于强化学习(RL)的在线符号音乐对齐技术，用于将演奏的MIDI音符与乐谱中的对应音符进行匹配。该方法使用一个基于注意力机制的神经网络作为RL Agent，通过迭代地从局部乐谱和演奏上下文中估计当前乐谱位置。由于符号音乐对齐任务中的环境状态可以被穷尽采样，且奖励是密集的，因此可以将其简化为一个离线RL问题。我们通过三种方式评估训练后的Agent：首先，评估其识别采样测试上下文的正确乐谱位置的能力；其次，将其作为完整算法的核心技术，用于符号在线音符对齐；最后，将其作为实时符号乐谱跟踪器。此外，我们还研究了用作Agent输入的基于音高的乐谱和演奏表示。为此，我们开发了第二个模型，一种基于两步动态时间规整(DTW)的离线对齐算法，该算法利用相同的输入表示。所提出的模型优于最先进的离线符号音乐对齐参考模型。

🔬 方法详解

问题定义：符号音乐对齐旨在将演奏的音乐（如MIDI）与对应的乐谱进行匹配。现有的在线符号音乐对齐方法通常难以在准确性和实时性之间取得平衡，尤其是在面对复杂的音乐作品时，容易出现跟踪错误或延迟。

核心思路：本文的核心思路是将在线符号音乐对齐问题建模为一个强化学习问题，并利用离线强化学习的方法进行训练。通过离线学习大量数据，Agent能够学习到乐谱和演奏之间的复杂关系，从而在在线对齐时能够更准确、更快速地估计乐谱位置。

技术框架：该方法主要包含以下几个模块：1) 状态表示：将乐谱和演奏信息编码为Agent的输入状态，使用基于音高的表示方法。2) Agent：采用基于注意力机制的神经网络作为RL Agent，负责根据当前状态估计乐谱位置。3) 离线训练：利用大量乐谱和演奏数据，通过离线强化学习训练Agent。4) 在线对齐：在实际演奏过程中，Agent根据实时乐谱和演奏信息，迭代地估计乐谱位置，实现音符级别的对齐。

关键创新：该方法最重要的创新点在于将在线符号音乐对齐问题转化为一个离线强化学习问题。通过离线学习，Agent可以充分利用大量数据，学习到更鲁棒的对齐策略，从而提高在线对齐的准确性和实时性。此外，使用基于注意力机制的神经网络作为Agent，能够更好地捕捉乐谱和演奏之间的长程依赖关系。

关键设计：在状态表示方面，论文使用了基于音高的乐谱和演奏表示，具体细节未知。在Agent设计方面，使用了基于注意力机制的神经网络，具体网络结构未知。在离线训练方面，采用了合适的奖励函数，具体形式未知。此外，论文还开发了一个基于两步动态时间规整(DTW)的离线对齐算法，作为对比基线。

📊 实验亮点

实验结果表明，该方法在乐谱位置识别、在线音符对齐和实时乐谱跟踪方面均表现良好。更重要的是，该方法优于最先进的离线符号音乐对齐参考模型，表明了其在准确性方面的优势。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于自动伴奏、音乐教育、音乐分析等领域。例如，在自动伴奏中，可以利用该技术实现乐谱与演奏的精确同步，从而提供更自然的伴奏效果。在音乐教育中，可以帮助学生更好地理解乐谱和演奏之间的关系。在音乐分析中，可以用于分析音乐的演奏风格和情感表达。

📄 摘要（原文）

Symbolic Music Alignment is the process of matching performed MIDI notes to corresponding score notes. In this paper, we introduce a reinforcement learning (RL)-based online symbolic music alignment technique. The RL agent - an attention-based neural network - iteratively estimates the current score position from local score and performance contexts. For this symbolic alignment task, environment states can be sampled exhaustively and the reward is dense, rendering a formulation as a simplified offline RL problem straightforward. We evaluate the trained agent in three ways. First, in its capacity to identify correct score positions for sampled test contexts; second, as the core technique of a complete algorithm for symbolic online note-wise alignment; and finally, as a real-time symbolic score follower. We further investigate the pitch-based score and performance representations used as the agent's inputs. To this end, we develop a second model, a two-step Dynamic Time Warping (DTW)-based offline alignment algorithm leveraging the same input representation. The proposed model outperforms a state-of-the-art reference model of offline symbolic music alignment.

Online Symbolic Music Alignment with Offline Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册