MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning
作者: Yiqing Liang, Jielin Qiu, Wenhao Ding, Zuxin Liu, James Tompkin, Mengdi Xu, Mengzhou Xia, Zhengzhong Tu, Laixi Shi, Jiacheng Zhu
分类: cs.CV, cs.CL, cs.LG
发布日期: 2025-05-30 (更新: 2025-06-05)
备注: Project Webpage: https://modomodo-rl.github.io/
💡 一句话要点
提出多域数据混合策略以提升多模态LLM的强化学习能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 强化学习 数据混合 可验证奖励 模型训练 视觉-语言任务 推理能力
📋 核心要点
- 现有方法在多模态LLMs的训练中面临数据集间目标冲突的问题,影响模型的泛化能力和推理能力。
- 论文提出了一种多模态RLVR框架,结合多数据集后训练和数据混合策略,以优化模型的学习效果。
- 实验结果显示,采用最佳数据混合策略后,模型在分布外基准上的准确率平均提升5.24%,相较于均匀数据混合提升20.74%。
📝 摘要(中文)
强化学习与可验证奖励(RLVR)最近成为后训练大型语言模型(LLMs)的强大范式,在具有结构化、可验证答案的任务中取得了最先进的性能。将RLVR应用于多模态LLMs(MLLMs)面临挑战,因为视觉-语言任务的异质性要求细致的视觉、逻辑和空间能力。为了解决这一问题,本文提出了一种系统的后训练框架,包含严格的数据混合问题定义和基准实现。我们开发了一个多模态RLVR框架,通过策划包含不同可验证视觉-语言问题的数据集,支持多域在线RL学习,并提出了一种数据混合策略,通过预测RL微调结果来优化最佳混合。实验结果表明,结合混合预测策略的多域RLVR训练显著提升了MLLM的推理能力。我们的最佳混合在分布外基准上的准确率提升了5.24%。
🔬 方法详解
问题定义:本文旨在解决多模态LLMs在使用RLVR进行后训练时,由于数据集间目标冲突而导致的泛化和推理能力不足的问题。现有方法未能有效处理多样化数据集的复杂性。
核心思路:提出了一种系统的后训练框架,结合多数据集的RLVR训练和数据混合策略,通过优化数据混合来提升模型的学习效果。
技术框架:整体架构包括数据集策划、RLVR训练模块和数据混合策略模块。首先策划包含多种可验证视觉-语言问题的数据集,然后进行多域在线RL学习,最后通过混合策略优化训练效果。
关键创新:最重要的技术创新在于提出了一种数据混合策略,该策略能够预测RL微调结果并优化最佳数据混合,从而有效提升模型的推理能力。与现有方法相比,该策略更具针对性和灵活性。
关键设计:在参数设置上,采用了适应性学习率和多样化的奖励机制,损失函数设计上结合了可验证奖励和推理能力的评估,网络结构则基于现有的多模态模型进行优化,以适应多域数据的特点。
📊 实验亮点
实验结果表明,采用最佳数据混合策略的模型在分布外基准上的准确率平均提升5.24%,相比于均匀数据混合的模型提升了20.74%。这一显著提升展示了多域RLVR训练与混合预测策略结合的有效性。
🎯 应用场景
该研究的潜在应用领域包括智能问答系统、图像描述生成、跨模态检索等。通过提升多模态LLMs的推理能力,能够在更复杂的视觉-语言任务中实现更高的准确性和可靠性,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a powerful paradigm for post-training large language models (LLMs), achieving state-of-the-art performance on tasks with structured, verifiable answers. Applying RLVR to Multimodal LLMs (MLLMs) presents significant opportunities but is complicated by the broader, heterogeneous nature of vision-language tasks that demand nuanced visual, logical, and spatial capabilities. As such, training MLLMs using RLVR on multiple datasets could be beneficial but creates challenges with conflicting objectives from interaction among diverse datasets, highlighting the need for optimal dataset mixture strategies to improve generalization and reasoning. We introduce a systematic post-training framework for Multimodal LLM RLVR, featuring a rigorous data mixture problem formulation and benchmark implementation. Specifically, (1) We developed a multimodal RLVR framework for multi-dataset post-training by curating a dataset that contains different verifiable vision-language problems and enabling multi-domain online RL learning with different verifiable rewards; (2) We proposed a data mixture strategy that learns to predict the RL fine-tuning outcome from the data mixture distribution, and consequently optimizes the best mixture. Comprehensive experiments showcase that multi-domain RLVR training, when combined with mixture prediction strategies, can significantly boost MLLM general reasoning capacities. Our best mixture improves the post-trained model's accuracy on out-of-distribution benchmarks by an average of 5.24% compared to the same model post-trained with uniform data mixture, and by a total of 20.74% compared to the pre-finetuning baseline.