Aurora:Activating Chinese chat capability for Mixtral-8x7B sparse Mixture-of-Experts through Instruction-Tuning

📄 arXiv: 2312.14557v2 📥 PDF

作者: Rongsheng Wang, Haoming Chen, Ruizhe Zhou, Yaofei Duan, Kunyan Cai, Han Ma, Jiaxi Cui, Jian Li, Patrick Cheong-Iao Pang, Yapeng Wang, Tao Tan

分类: cs.CL

发布日期: 2023-12-22 (更新: 2024-01-01)

备注: 10 pages, 2 figures

🔗 代码/项目: GITHUB


💡 一句话要点

Aurora:通过指令微调激活Mixtral-8x7B稀疏专家混合模型的中文对话能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令微调 Mixtral-8x7B 稀疏专家混合模型 中文对话 大语言模型

📋 核心要点

  1. 现有大语言模型依赖机器生成的指令数据进行微调,以实现出色的零样本能力,但中文对话能力仍有提升空间。
  2. 论文通过整合和预处理三个中文指令数据集,对Mixtral-8x7B稀疏专家混合模型进行指令微调,提升其中文对话能力。
  3. 实验表明,指令微调能有效提升Mixtral-8x7B模型在C-Eval、MMLU和CMMLU等基准测试上的性能,验证了方法的有效性。

📝 摘要(中文)

本文旨在通过指令微调提升Mixtral-8x7B稀疏专家混合模型在中文对话方面的能力。研究系统性地考察、预处理并整合了三个中文指令跟随数据集,用于训练模型。通过在精心处理的数据集上进行指令微调,成功构建了名为“Aurora”的Mixtral-8x7B模型。为了评估Aurora的性能,使用了C-Eval、MMLU和CMMLU三个广泛认可的基准测试。实验结果验证了指令微调在Mixtral-8x7B稀疏专家混合模型上的有效性。这项工作率先在稀疏专家混合模型上执行指令微调,标志着在该模型架构能力提升方面取得了重大突破。代码、数据和模型已公开。

🔬 方法详解

问题定义:论文旨在解决Mixtral-8x7B稀疏专家混合模型在中文对话能力上的不足。虽然该模型在通用语言理解方面表现出色,但在处理复杂的中文对话任务时,仍然存在性能瓶颈,尤其是在理解和生成符合中文习惯和文化背景的回复方面。现有方法缺乏针对性的中文指令微调,导致模型无法充分利用其潜在的中文能力。

核心思路:论文的核心思路是通过指令微调,使Mixtral-8x7B模型更好地理解和遵循中文指令,从而提升其中文对话能力。这种方法利用了大量的中文指令数据,引导模型学习如何根据指令生成高质量的中文回复。通过指令微调,模型能够更好地适应中文语境,提高对话的流畅性和准确性。

技术框架:整体框架包括数据预处理、指令微调和模型评估三个主要阶段。首先,对三个中文指令数据集进行清洗、过滤和格式转换,确保数据质量。然后,使用处理后的数据对Mixtral-8x7B模型进行指令微调,优化模型参数。最后,使用C-Eval、MMLU和CMMLU等基准测试评估模型的性能,验证微调的有效性。

关键创新:论文的关键创新在于率先在Mixtral-8x7B稀疏专家混合模型上执行指令微调,并成功激活了该模型在中文对话方面的潜力。与传统的稠密模型相比,稀疏专家混合模型具有更高的参数效率和更强的表达能力,但同时也面临着训练难度更大的挑战。该研究证明了指令微调是提升稀疏专家混合模型中文能力的有效途径。

关键设计:在数据预处理方面,论文采用了多种过滤策略,例如去除低质量数据、重复数据和不相关数据,以提高训练数据的质量。在指令微调方面,使用了标准的交叉熵损失函数,并采用了AdamW优化器进行参数更新。具体的学习率、batch size等超参数设置未知,但论文公开了代码,可以参考。

📊 实验亮点

实验结果表明,经过指令微调后的Aurora模型在C-Eval、MMLU和CMMLU等基准测试上取得了显著的性能提升。具体提升幅度未知,但论文强调了指令微调的有效性。该研究为后续研究提供了有价值的参考,证明了指令微调是提升稀疏专家混合模型中文能力的可行方案。

🎯 应用场景

该研究成果可广泛应用于智能客服、聊天机器人、中文内容生成等领域。通过提升模型的中文对话能力,可以为用户提供更自然、流畅和个性化的交互体验。未来,该技术有望应用于更复杂的中文自然语言处理任务,例如机器翻译、文本摘要和知识图谱构建等。

📄 摘要(原文)

Existing research has demonstrated that refining large language models (LLMs) through the utilization of machine-generated instruction-following data empowers these models to exhibit impressive zero-shot capabilities for novel tasks, without requiring human-authored instructions. In this paper, we systematically investigate, preprocess, and integrate three Chinese instruction-following datasets with the aim of enhancing the Chinese conversational capabilities of Mixtral-8x7B sparse Mixture-of-Experts model. Through instruction fine-tuning on this carefully processed dataset, we successfully construct the Mixtral-8x7B sparse Mixture-of-Experts model named "Aurora." To assess the performance of Aurora, we utilize three widely recognized benchmark tests: C-Eval, MMLU, and CMMLU. Empirical studies validate the effectiveness of instruction fine-tuning applied to Mixtral-8x7B sparse Mixture-of-Experts model. This work is pioneering in the execution of instruction fine-tuning on a sparse expert-mixed model, marking a significant breakthrough in enhancing the capabilities of this model architecture. Our code, data and model are publicly available at https://github.com/WangRongsheng/Aurora