TigerBot: An Open Multilingual Multitask LLM

📄 arXiv: 2312.08688v2 📥 PDF

作者: Ye Chen, Wei Cai, Liangmin Wu, Xiaowei Li, Zhanxuan Xin, Cong Fu

分类: cs.CL, cs.AI

发布日期: 2023-12-14 (更新: 2023-12-15)


💡 一句话要点

TigerBot:开源多语言多任务大语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 多语言模型 多任务学习 开源模型 Llama-2 BLOOM 自然语言处理 深度学习

📋 核心要点

  1. 现有开源LLM在多语言和多任务处理能力上存在局限,难以满足实际应用需求。
  2. TigerBot通过在Llama-2和BLOOM基础上,改进数据、算法、基础设施和工具,提升模型性能。
  3. 实验表明,TigerBot在英语和中文任务上均优于Llama-2,并在多个基准测试中取得领先地位。

📝 摘要(中文)

我们发布并介绍了TigerBot系列大型语言模型(LLM),包括基础模型和聊天模型,规模分别为70亿、130亿、700亿和1800亿参数。我们的模型基于Llama-2和BLOOM进行开发,并在数据、训练算法、基础设施和应用工具方面进一步突破。我们的模型在SOTA开源模型(例如Llama-2)上产生了显著的性能提升,特别是英语提升6%,中文提升20%。TigerBot模型系列还在主要的学术和工业基准和排行榜中取得了领先的性能。我们相信TigerBot仅仅代表了LLM开源社区快速发展的一个缩影。因此,我们很高兴通过公开发布我们的模型并报告其背后的方法来回馈社区,并额外强调以民主化的方式构建SOTA LLM,并使LLM在实际应用中发挥作用。

🔬 方法详解

问题定义:论文旨在构建一个高性能、多语言、多任务的开源大型语言模型,以克服现有开源模型在特定语言和任务上的不足。现有开源模型在中文等非英语语种上的表现往往不如英语,且在复杂任务上的泛化能力有限。

核心思路:论文的核心思路是基于现有的优秀开源模型(Llama-2和BLOOM),通过更大规模、更高质量的数据训练,以及更优化的训练算法和基础设施,来提升模型的性能。同时,注重模型的实际应用能力,开发相应的应用工具。

技术框架:TigerBot的技术框架主要包括以下几个部分:1) 数据收集与清洗:收集大规模多语言、多任务的数据集,并进行高质量的清洗和过滤。2) 模型训练:基于Llama-2和BLOOM的架构,使用优化后的训练算法进行训练。3) 基础设施:利用高性能计算集群和分布式训练框架,加速模型训练过程。4) 应用工具:开发一系列应用工具,方便用户使用和部署模型。

关键创新:论文的关键创新在于:1) 在数据方面,构建了更大规模、更高质量的多语言数据集,提升了模型在非英语语种上的性能。2) 在训练算法方面,采用了更先进的优化算法和训练策略,加速了模型收敛,提升了模型性能。3) 在基础设施方面,利用高性能计算集群和分布式训练框架,实现了更大规模模型的训练。

关键设计:论文的关键设计包括:1) 数据集的构建:采用了多种数据来源,包括公开数据集、网页数据、书籍等,并进行了严格的数据清洗和过滤。2) 训练算法的优化:采用了AdamW优化器,并进行了学习率衰减和梯度裁剪等优化。3) 模型架构的调整:在Llama-2和BLOOM的基础上,对模型架构进行了一些调整,例如增加了模型的深度和宽度。

📊 实验亮点

TigerBot模型在英语和中文任务上均取得了显著的性能提升,其中英语提升6%,中文提升20%,超越了Llama-2等SOTA开源模型。此外,TigerBot还在多个学术和工业基准测试中取得了领先地位,证明了其在多语言和多任务处理方面的优越性能。

🎯 应用场景

TigerBot具有广泛的应用前景,可用于机器翻译、文本生成、对话系统、知识问答等领域。其开源特性有助于推动LLM技术在学术界和工业界的普及和应用。未来,TigerBot有望成为构建各种智能应用的基础模型,例如智能客服、内容创作助手、教育辅导系统等。

📄 摘要(原文)

We release and introduce the TigerBot family of large language models (LLMs), consisting of base and chat models, sized from 7, 13, 70 and 180 billion parameters. We develop our models embarking from Llama-2 and BLOOM, and push the boundary further in data, training algorithm, infrastructure, and application tools. Our models yield meaningful performance gain over SOTA open-source models, e.g., Llama-2, specifically 6% gain in English and 20% gain in Chinese. TigerBot model family also achieves leading performance in major academic and industrial benchmarks and leaderboards. We believe that TigerBot represents just a snapshot of lightning-fast progression in LLM open-source community. Therefore, we are thrilled to give back by publicly releasing our models and reporting our approach behind, with additional emphases on building SOTA LLMs in a democratized way and making LLMs of use in real-world applications.