Magistral
作者: Mistral-AI, :, Abhinav Rastogi, Albert Q. Jiang, Andy Lo, Gabrielle Berrada, Guillaume Lample, Jason Rute, Joep Barmentlo, Karmesh Yadav, Kartik Khandelwal, Khyathi Raghavi Chandu, Léonard Blier, Lucile Saulnier, Matthieu Dinot, Maxime Darrin, Neha Gupta, Roman Soletskyi, Sagar Vaze, Teven Le Scao, Yihan Wang, Adam Yang, Alexander H. Liu, Alexandre Sablayrolles, Amélie Héliou, Amélie Martin, Andy Ehrenberg, Anmol Agarwal, Antoine Roux, Arthur Darcet, Arthur Mensch, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Chris Bamford, Christian Wallenwein, Christophe Renaudin, Clémence Lanfranchi, Darius Dabert, Devon Mizelle, Diego de las Casas, Elliot Chane-Sane, Emilien Fugier, Emma Bou Hanna, Gauthier Delerce, Gauthier Guinet, Georgii Novikov, Guillaume Martin, Himanshu Jaju, Jan Ludziejewski, Jean-Hadrien Chabran, Jean-Malo Delignon, Joachim Studnia, Jonas Amar, Josselin Somerville Roberts, Julien Denize, Karan Saxena, Kush Jain, Lingxiao Zhao, Louis Martin, Luyu Gao, Lélio Renard Lavaud, Marie Pellat, Mathilde Guillaumin, Mathis Felardos, Maximilian Augustin, Mickaël Seznec, Nikhil Raghuraman, Olivier Duchenne, Patricia Wang, Patrick von Platen, Patryk Saffer, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Pavankumar Reddy Muddireddy, Philomène Chagniot, Pierre Stock, Pravesh Agrawal, Romain Sauvestre, Rémi Delacourt, Sanchit Gandhi, Sandeep Subramanian, Shashwat Dalal, Siddharth Gandhi, Soham Ghosh, Srijan Mishra, Sumukh Aithal, Szymon Antoniak, Thibault Schueller, Thibaut Lavril, Thomas Robert, Thomas Wang, Timothée Lacroix, Valeriia Nemychnikova, Victor Paltz, Virgile Richard, Wen-Ding Li, William Marshall, Xuanyu Zhang, Yunhao Tang
分类: cs.CL
发布日期: 2025-06-12
💡 一句话要点
提出Magistral以实现大规模强化学习模型的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 推理模型 多模态理解 自然语言处理 模型训练 自下而上方法 智能助手
📋 核心要点
- 现有的强化学习方法往往依赖于先前模型的实现和轨迹,缺乏自主构建的能力。
- 论文提出了一种自下而上的方法,完全依赖于自身模型和基础设施进行强化学习训练。
- 实验结果表明,文本数据上的强化学习训练能够保持或提升多模态理解和指令跟随能力。
📝 摘要(中文)
我们介绍了Magistral,这是Mistral的首个推理模型及其可扩展的强化学习(RL)管道。与依赖现有实现和从先前模型中提取的RL轨迹不同,我们采用了自下而上的方法,完全依赖于我们自己的模型和基础设施。值得注意的是,我们展示了一种堆栈,使我们能够探索纯RL训练大型语言模型的极限,提出了一种简单的方法来强制模型的推理语言,并表明仅在文本数据上进行的RL训练能够保持大部分初始检查点的能力。我们发现,文本上的RL训练保持或改善了多模态理解、指令跟随和功能调用。我们展示了在Mistral Medium 3基础上仅通过RL训练的Magistral Medium,并开源了Magistral Small(Apache 2.0),其中进一步包含了来自Magistral Medium的冷启动数据。
🔬 方法详解
问题定义:本论文旨在解决现有强化学习方法对先前模型依赖的问题,探索如何通过自主构建的模型进行有效的推理训练。现有方法往往无法充分利用新模型的潜力。
核心思路:论文的核心思路是采用自下而上的方法,完全依赖自身的模型和基础设施进行强化学习训练,以探索纯RL训练的极限。通过这种方式,模型能够在没有外部依赖的情况下进行推理能力的提升。
技术框架:整体架构包括数据收集、模型训练和评估三个主要模块。首先,通过自有数据集进行冷启动,然后在此基础上进行强化学习训练,最后评估模型在多模态理解和指令跟随等任务上的表现。
关键创新:最重要的技术创新点在于提出了一种新的训练方法,能够在文本数据上进行强化学习,保持或提升模型的能力。这与传统方法依赖于先前模型的轨迹有本质区别。
关键设计:在模型训练中,采用了特定的损失函数和参数设置,以确保模型在推理任务中的有效性。此外,设计了适应性强的网络结构,以支持多模态数据的处理。通过这些设计,模型能够在不同任务中表现出色。
📊 实验亮点
实验结果显示,Magistral在多模态理解和指令跟随任务上表现优异,保持或提升了初始模型的能力。具体而言,文本数据上的强化学习训练使得模型在这些任务上的性能提升幅度显著,验证了该方法的有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、智能助手、教育技术等。通过提升模型的推理能力,Magistral可以在复杂任务中提供更准确的响应,增强用户体验,推动智能系统的进一步发展。
📄 摘要(原文)
We introduce Magistral, Mistral's first reasoning model and our own scalable reinforcement learning (RL) pipeline. Instead of relying on existing implementations and RL traces distilled from prior models, we follow a ground up approach, relying solely on our own models and infrastructure. Notably, we demonstrate a stack that enabled us to explore the limits of pure RL training of LLMs, present a simple method to force the reasoning language of the model, and show that RL on text data alone maintains most of the initial checkpoint's capabilities. We find that RL on text maintains or improves multimodal understanding, instruction following and function calling. We present Magistral Medium, trained for reasoning on top of Mistral Medium 3 with RL alone, and we open-source Magistral Small (Apache 2.0) which further includes cold-start data from Magistral Medium.