YAYI 2: Multilingual Open-Source Large Language Models

📄 arXiv: 2312.14862v1 📥 PDF

作者: Yin Luo, Qingchao Kong, Nan Xu, Jia Cao, Bao Hao, Baoyu Qu, Bo Chen, Chao Zhu, Chenyang Zhao, Donglei Zhang, Fan Feng, Feifei Zhao, Hailong Sun, Hanxuan Yang, Haojun Pan, Hongyu Liu, Jianbin Guo, Jiangtao Du, Jingyi Wang, Junfeng Li, Lei Sun, Liduo Liu, Lifeng Dong, Lili Liu, Lin Wang, Liwen Zhang, Minzheng Wang, Pin Wang, Ping Yu, Qingxiao Li, Rui Yan, Rui Zou, Ruiqun Li, Taiwen Huang, Xiaodong Wang, Xiaofei Wu, Xin Peng, Xina Zhang, Xing Fang, Xinglin Xiao, Yanni Hao, Yao Dong, Yigang Wang, Ying Liu, Yongyu Jiang, Yungan Wang, Yuqi Wang, Zhangsheng Wang, Zhaoxin Yu, Zhen Luo, Wenji Mao, Lei Wang, Dajun Zeng

分类: cs.CL, cs.AI

发布日期: 2023-12-22


💡 一句话要点

提出YAYI 2:一个300亿参数的多语言开源大型语言模型,提升中文场景性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多语言模型 开源模型 中文自然语言处理 指令微调 强化学习 人类反馈 预训练

📋 核心要点

  1. 现有开源LLM主要针对英语场景设计,在中文环境中表现不佳,限制了中文自然语言处理研究。
  2. YAYI 2通过从头开始在多语言语料库上预训练,并进行指令微调和人类反馈强化学习,提升模型性能。
  3. 实验结果表明,YAYI 2在MMLU和CMMLU等基准测试中,性能优于其他同等规模的开源模型。

📝 摘要(中文)

本文提出了YAYI 2,一个包含基础模型和对话模型的300亿参数多语言大型语言模型。YAYI 2从头开始在一个包含2.65万亿token的多语言语料库上进行预训练,该语料库经过了预训练数据处理流程的过滤。基础模型通过数百万条指令的监督微调以及基于人类反馈的强化学习与人类价值观对齐。在多个基准测试(如MMLU和CMMLU)上的大量实验表明,所提出的YAYI 2始终优于其他类似规模的开源模型。

🔬 方法详解

问题定义:现有的大型语言模型,特别是开源模型,在处理中文任务时性能往往不如英文任务。这主要是因为这些模型在训练时更多地侧重于英文语料,导致其在中文语言理解和生成能力上存在不足。因此,需要一个专门针对多语言,特别是中文场景优化的大型语言模型。

核心思路:YAYI 2的核心思路是从头开始训练一个多语言模型,并使用大规模的多语言语料库进行预训练,从而使模型能够更好地理解和生成包括中文在内的多种语言。此外,通过监督微调和人类反馈强化学习,使模型与人类价值观对齐,提高模型的可用性和安全性。

技术框架:YAYI 2的整体框架包括以下几个主要阶段:1) 数据收集与预处理:收集大规模的多语言语料库,并进行清洗、过滤等预处理操作。2) 模型预训练:使用预处理后的语料库从头开始训练一个300亿参数的基础模型。3) 监督微调:使用数百万条指令对基础模型进行微调,提高模型在特定任务上的性能。4) 人类反馈强化学习:使用人类反馈信号对模型进行强化学习,使模型与人类价值观对齐。

关键创新:YAYI 2的关键创新在于其多语言训练策略和与人类价值观对齐的方法。通过从头开始训练多语言模型,YAYI 2能够更好地捕捉不同语言之间的共性和差异,从而提高模型在多语言任务上的性能。此外,通过监督微调和人类反馈强化学习,YAYI 2能够更好地理解人类意图,生成更符合人类价值观的文本。

关键设计:YAYI 2使用了300亿参数的Transformer架构。在预训练阶段,使用了包含2.65万亿token的多语言语料库。在监督微调阶段,使用了数百万条指令。在人类反馈强化学习阶段,使用了Proximal Policy Optimization (PPO)算法。具体的损失函数和网络结构等技术细节在论文中没有详细说明。

📊 实验亮点

YAYI 2在MMLU和CMMLU等多个基准测试中表现出色,显著优于其他同等规模的开源模型。具体性能数据未在摘要中给出,但强调了YAYI 2在多个benchmark上的一致性超越,表明其在多语言理解和生成能力上的优势。

🎯 应用场景

YAYI 2可广泛应用于多语言自然语言处理任务,如机器翻译、文本摘要、问答系统、对话生成等。尤其在中文场景下,YAYI 2有望提升相关应用的性能和用户体验。该模型开源发布,将促进学术界和工业界在多语言LLM领域的研究和创新,推动人工智能技术的发展。

📄 摘要(原文)

As the latest advancements in natural language processing, large language models (LLMs) have achieved human-level language understanding and generation abilities in many real-world tasks, and even have been regarded as a potential path to the artificial general intelligence. To better facilitate research on LLMs, many open-source LLMs, such as Llama 2 and Falcon, have recently been proposed and gained comparable performances to proprietary models. However, these models are primarily designed for English scenarios and exhibit poor performances in Chinese contexts. In this technical report, we propose YAYI 2, including both base and chat models, with 30 billion parameters. YAYI 2 is pre-trained from scratch on a multilingual corpus which contains 2.65 trillion tokens filtered by our pre-training data processing pipeline. The base model is aligned with human values through supervised fine-tuning with millions of instructions and reinforcement learning from human feedback. Extensive experiments on multiple benchmarks, such as MMLU and CMMLU, consistently demonstrate that the proposed YAYI 2 outperforms other similar sized open-source models.