Towards Hallucination-Free Music: A Reinforcement Learning Preference Optimization Framework for Reliable Song Generation

作者: Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong Wu, Shuai Wang, Qijun Huang, Dong Yu

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-08-07

💡 一句话要点

提出基于强化学习的偏好优化框架以解决音乐生成中的幻觉问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 音乐生成 强化学习 偏好优化 内容幻觉 音素错误率 自动作曲 生成模型

📋 核心要点

现有的歌词到歌曲生成模型常常出现内容幻觉，导致生成结果与输入歌词不一致，影响音乐的连贯性。
本文提出了一种基于强化学习的偏好优化框架，通过构建幻觉偏好数据集和实现多种优化策略来控制幻觉现象。
实验结果显示，DPO策略实现了7.4%的音素错误率（PER）降低，而PPO和GRPO分别降低了4.9%和4.7%，有效提升了生成质量。

📝 摘要（中文）

近年来，基于音频的生成语言模型在歌词到歌曲生成方面取得了显著进展。然而，这些模型常常遭遇内容幻觉，导致生成的输出与输入歌词不一致，影响音乐的连贯性。现有的监督微调方法由于被动标签拟合的限制，自我改进能力不足，幻觉缓解效果不佳。为了解决这一核心挑战，本文提出了一种新颖的强化学习框架，利用偏好优化进行幻觉控制。主要贡献包括：构建了一个稳健的幻觉偏好数据集，通过音素错误率计算和基于规则的过滤来捕捉与人类期望的对齐；在强化学习框架中实现并评估了三种不同的偏好优化策略，分别为直接偏好优化（DPO）、近端策略优化（PPO）和组相对策略优化（GRPO）。实验结果表明，所提方法有效抑制了幻觉现象，同时保持了音乐质量。

🔬 方法详解

问题定义：本文旨在解决歌词到歌曲生成中的内容幻觉问题，现有的监督微调方法在幻觉缓解方面表现不佳，缺乏有效的自我改进机制。

核心思路：提出基于强化学习的偏好优化框架，通过构建幻觉偏好数据集，利用人类期望对生成内容进行优化，从而控制幻觉现象。

技术框架：整体框架包括数据集构建、偏好优化策略实现（DPO、PPO、GRPO）和基于PER的奖励模型训练，形成一个闭环优化过程。

关键创新：最重要的创新在于通过强化学习实现对幻觉的系统性控制，尤其是DPO策略的引入，显著提升了生成内容的质量。

关键设计：在DPO中，采用离线策略增强正向标记的可能性；PPO和GRPO则通过在线策略训练PER基础的奖励模型，结合奖励最大化和KL正则化进行序列优化。具体参数设置和损失函数设计在实验中进行了详细评估。

📊 实验亮点

实验结果显示，DPO策略在幻觉控制方面表现优异，实现了7.4%的音素错误率降低，而PPO和GRPO分别降低了4.9%和4.7%。这些结果表明，所提方法在抑制幻觉的同时，保持了音乐的整体质量。

🎯 应用场景

该研究的潜在应用领域包括音乐创作、自动作曲和歌词生成等，能够为音乐创作提供更高质量的生成工具。未来，该框架还可扩展到不同音乐风格的生成和音乐性增强，推动生成音乐研究的发展。

📄 摘要（原文）

Recent advances in audio-based generative language models have accelerated AI-driven lyric-to-song generation. However, these models frequently suffer from content hallucination, producing outputs misaligned with the input lyrics and undermining musical coherence. Current supervised fine-tuning (SFT) approaches, limited by passive label-fitting, exhibit constrained self-improvement and poor hallucination mitigation. To address this core challenge, we propose a novel reinforcement learning (RL) framework leveraging preference optimization for hallucination control. Our key contributions include: (1) Developing a robust hallucination preference dataset constructed via phoneme error rate (PER) computation and rule-based filtering to capture alignment with human expectations; (2) Implementing and evaluating three distinct preference optimization strategies within the RL framework: Direct Preference Optimization (DPO), Proximal Policy Optimization (PPO), and Group Relative Policy Optimization (GRPO). DPO operates off-policy to enhance positive token likelihood, achieving a significant 7.4% PER reduction. PPO and GRPO employ an on-policy approach, training a PER-based reward model to iteratively optimize sequences via reward maximization and KL-regularization, yielding PER reductions of 4.9% and 4.7%, respectively. Comprehensive objective and subjective evaluations confirm that our methods effectively suppress hallucinations while preserving musical quality. Crucially, this work presents a systematic, RL-based solution to hallucination control in lyric-to-song generation. The framework's transferability also unlocks potential for music style adherence and musicality enhancement, opening new avenues for future generative song research.

Towards Hallucination-Free Music: A Reinforcement Learning Preference Optimization Framework for Reliable Song Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册