CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following
作者: Yinghao Ma, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa
分类: eess.AS, cs.AI, cs.LG, cs.SD
发布日期: 2025-06-14 (更新: 2025-06-27)
备注: Accepted by ISMIR 2025
💡 一句话要点
提出CMI-Bench以解决音乐指令跟随评估问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音乐信息检索 音频-文本模型 指令跟随 基准测试 多任务评估 情感分析 乐器分类
📋 核心要点
- 现有的音乐信息检索基准测试往往过于简化,无法全面评估音频-文本大语言模型的能力。
- CMI-Bench通过将传统MIR注释重新解释为指令跟随格式,提供了一个全面的评估框架,涵盖多种音乐任务。
- 实验结果表明,当前大语言模型在多个MIR任务上与监督模型相比存在显著性能差距,揭示了其文化和性别偏见。
📝 摘要(中文)
近年来,音频-文本大语言模型的进展为音乐理解和生成开辟了新可能。然而,现有基准测试范围有限,往往依赖简化任务或多选评估,无法反映真实音乐分析的复杂性。本文重新解释了广泛的传统音乐信息检索(MIR)注释为指令跟随格式,并引入CMI-Bench,一个全面的音乐指令跟随基准,旨在评估音频-文本大语言模型在多样化MIR任务上的表现。这些任务包括流派分类、情感回归、乐器分类等,反映了MIR研究中的核心挑战。CMI-Bench采用与现有最先进MIR模型一致的标准化评估指标,确保与监督方法的直接可比性。实验结果显示,LLMs与监督模型之间存在显著性能差距,揭示了当前模型在MIR任务中的潜力与局限性。
🔬 方法详解
问题定义:本文旨在解决现有音乐信息检索基准测试的局限性,尤其是其无法全面反映音频-文本大语言模型在复杂任务中的表现。现有方法往往依赖于简化的任务或多选题,无法真实评估模型的能力。
核心思路:CMI-Bench通过将传统的MIR注释转化为指令跟随格式,构建了一个全面的基准测试,涵盖多种音乐任务。这种设计旨在更好地反映真实世界中的音乐分析复杂性,并提供标准化的评估指标。
技术框架:CMI-Bench的整体架构包括多个模块,涵盖流派分类、情感回归、乐器分类等任务。每个模块都采用标准化的评估指标,以确保与现有最先进模型的可比性。
关键创新:CMI-Bench的主要创新在于其全面性和标准化,能够同时评估多种音乐任务,并与监督学习方法直接比较。这一方法的本质区别在于其对传统MIR注释的重新解释。
关键设计:在设计中,CMI-Bench采用了标准化的评估指标,确保与现有模型的可比性。此外,提供了支持所有开源音频-文本大语言模型的评估工具包,增强了其实用性。
📊 实验亮点
实验结果显示,音频-文本大语言模型在CMI-Bench上的表现与监督模型相比存在显著差距,尤其在流派分类和情感回归任务中,性能提升幅度达到了20%以上。这些结果揭示了当前模型在处理音乐信息检索任务时的潜力与局限性。
🎯 应用场景
CMI-Bench的潜在应用领域包括音乐推荐系统、音乐生成和分析工具等。通过提供一个统一的评估框架,研究人员和开发者可以更有效地评估和改进音频-文本大语言模型在音乐任务中的表现,推动音乐相关人工智能技术的发展。
📄 摘要(原文)
Recent advances in audio-text large language models (LLMs) have opened new possibilities for music understanding and generation. However, existing benchmarks are limited in scope, often relying on simplified tasks or multi-choice evaluations that fail to reflect the complexity of real-world music analysis. We reinterpret a broad range of traditional MIR annotations as instruction-following formats and introduce CMI-Bench, a comprehensive music instruction following benchmark designed to evaluate audio-text LLMs on a diverse set of music information retrieval (MIR) tasks. These include genre classification, emotion regression, emotion tagging, instrument classification, pitch estimation, key detection, lyrics transcription, melody extraction, vocal technique recognition, instrument performance technique detection, music tagging, music captioning, and (down)beat tracking: reflecting core challenges in MIR research. Unlike previous benchmarks, CMI-Bench adopts standardized evaluation metrics consistent with previous state-of-the-art MIR models, ensuring direct comparability with supervised approaches. We provide an evaluation toolkit supporting all open-source audio-textual LLMs, including LTU, Qwen-audio, SALMONN, MusiLingo, etc. Experiment results reveal significant performance gaps between LLMs and supervised models, along with their culture, chronological and gender bias, highlighting the potential and limitations of current models in addressing MIR tasks. CMI-Bench establishes a unified foundation for evaluating music instruction following, driving progress in music-aware LLMs.