THaLLE-ThaiLLM: Domain-Specialized Small LLMs for Finance and Thai -- Technical Report
作者: KBTG Labs, :, Anuruth Lertpiya, Danupat Khamnuansin, Kantapong Sucharitpongpan, Pornchanan Balee, Tawunrat Chalothorn, Thadpong Pongthawornkamol, Monchai Lertsutthiwong
分类: cs.CL
发布日期: 2026-01-08
💡 一句话要点
THaLLE-ThaiLLM:面向金融和泰语的领域专用小型LLM,通过模型合并实现多功能性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 模型合并 领域专用LLM 泰语 金融
📋 核心要点
- 现有LLM在特定领域(如金融和泰语)的专业能力不足,且部署多个专用模型成本高昂。
- 通过模型合并,将通用LLM与领域专用LLM结合,在资源有限的情况下提升模型的多功能性。
- 实验表明,合并后的模型在通用能力(M3/M6 O-NET)和金融领域能力(Flare-CFA, Thai-IC)上均有提升。
📝 摘要(中文)
大型语言模型(LLM)在各个领域,尤其是在银行和金融领域,展现出巨大的潜力,它们可以自动化复杂的任务并大规模地增强决策能力。由于隐私、安全和监管方面的考虑,组织通常更喜欢LLM的本地部署。ThaiLLM计划旨在增强开放LLM中的泰语能力,使泰国工业能够利用先进的语言模型。然而,组织经常面临部署多个专用模型与训练单个多功能模型的高昂成本之间的权衡。为了解决这个问题,我们探索了模型合并作为一种资源高效的替代方案,用于开发高性能、多功能的LLM。我们展示了两个关键实验的结果:首先,将Qwen-8B与ThaiLLM-8B合并,证明了ThaiLLM-8B如何增强泰语的通用能力,在M3和M6 O-NET考试中超过了通用指令遵循的Qwen-8B。其次,我们将Qwen-8B与ThaiLLM-8B和THaLLE-CFA-8B合并。这种组合进一步提高了通用和金融领域的性能,在M3和M6 O-NET、Flare-CFA和Thai-IC基准测试中均表现出提升。该报告展示了模型合并在高效创建多功能LLM方面的可行性。
🔬 方法详解
问题定义:论文旨在解决在资源受限的情况下,如何构建既具备通用能力又擅长特定领域(如金融和泰语)的LLM的问题。现有方法要么训练成本高昂的单一多功能模型,要么需要部署和维护多个专用模型,造成资源浪费和管理复杂性。
核心思路:论文的核心思路是利用模型合并技术,将一个通用的LLM(如Qwen-8B)与一个或多个领域专用的LLM(如ThaiLLM-8B和THaLLE-CFA-8B)进行融合。通过这种方式,可以有效地将不同模型的优势结合起来,从而在不显著增加计算成本的前提下,提升模型在多个领域的性能。
技术框架:整体框架包括以下步骤:1) 选择一个通用LLM作为基础模型;2) 选择或训练一个或多个领域专用LLM;3) 使用模型合并算法将这些模型融合在一起;4) 在多个基准测试上评估合并后的模型性能。主要模块包括通用LLM、领域专用LLM和模型合并模块。
关键创新:论文的关键创新在于探索了模型合并技术在构建多功能LLM方面的应用。与传统的训练单一多功能模型或部署多个专用模型的方法相比,模型合并提供了一种更具资源效率的替代方案。通过巧妙地融合不同模型的知识,可以在多个领域实现更好的性能。
关键设计:论文中没有详细说明具体的模型合并算法或参数设置。但是,可以推断出,关键的设计考虑包括:选择合适的模型合并算法(例如,权重平均、知识蒸馏等),以及调整合并后的模型的参数,以在不同领域之间实现最佳的性能平衡。此外,选择合适的领域专用模型也是至关重要的,因为它们的质量将直接影响合并后模型的性能。
📊 实验亮点
实验结果表明,将Qwen-8B与ThaiLLM-8B合并后,在M3和M6 O-NET考试中,性能优于Qwen-8B。进一步合并THaLLE-CFA-8B后,在M3/M6 O-NET、Flare-CFA和Thai-IC等基准测试中均取得提升,验证了模型合并在提升通用能力和金融领域能力方面的有效性。
🎯 应用场景
该研究成果可应用于金融、教育等多个领域。例如,金融机构可以利用该技术构建能够处理泰语金融文本、进行风险评估和客户服务的智能系统。教育领域可以开发辅助泰语学习和考试的AI工具。该方法降低了领域专用LLM的开发成本,促进了AI技术在泰国及其他类似语言环境中的应用。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated significant potential across various domains, particularly in banking and finance, where they can automate complex tasks and enhance decision-making at scale. Due to privacy, security, and regulatory concerns, organizations often prefer on-premise deployment of LLMs. The ThaiLLM initiative aims to enhance Thai language capabilities in open-LLMs, enabling Thai industry to leverage advanced language models. However, organizations often face a trade-off between deploying multiple specialized models versus the prohibitive expense of training a single multi-capability model. To address this, we explore model merging as a resource-efficient alternative for developing high-performance, multi-capability LLMs. We present results from two key experiments: first, merging Qwen-8B with ThaiLLM-8B demonstrates how ThaiLLM-8B enhances Thai general capabilities, showing an uplift of M3 and M6 O-NET exams over the general instruction-following Qwen-8B. Second, we merge Qwen-8B with both ThaiLLM-8B and THaLLE-CFA-8B. This combination results in further improvements in performance across both general and financial domains, by demonstrating an uplift in both M3 and M6 O-NET, Flare-CFA, and Thai-IC benchmarks. The report showcases the viability of model merging for efficiently creating multi-capability LLMs.