TIBSTC-CoT: A Multi-Domain Instruction Dataset for Chain-of-Thought Reasoning in Language Models

作者: Fan Gao, Cheng Huang, Nyima Tashi, Yutong Liu, Xiangxiang Wang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Xiao Feng, Hao Wang, Yongbin Yu

分类: cs.CL, cs.AI

发布日期: 2025-08-04 (更新: 2025-12-16)

备注: We will merge this paper with arXiv:2503.18288

🔗 代码/项目: GITHUB

💡 一句话要点

提出TIBSTC-CoT以解决藏语数据稀缺问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 藏语处理 低资源语言 数据集构建 链式思维 语言模型 自然语言处理 智能翻译

📋 核心要点

藏语作为一种低资源语言，面临严重的数据稀缺问题，现有方法难以满足其语言处理需求。
本文提出了TIBSTC-CoT数据集，通过链式思维提示自动构建，提供了多领域的藏语数据，支持语言理解与生成。
基于TIBSTC-CoT训练的Sunshine-thinking LLM在推理和生成性能上表现优异，已接近最先进的多语言模型。

📝 摘要（中文）

为了解决藏语这一低资源语言的数据稀缺问题，本文提出了TIBSTC-CoT，一个通过链式思维提示自动构建的大规模多领域藏语数据集。该数据集建立了一个可扩展和可重复的数据集创建框架，涵盖了语言理解和生成所需的多样化领域和推理模式。基于此数据集，我们开发了Sunshine-thinking LLM系列，这些藏语中心的语言模型具备链式思维能力，经过训练后在推理和生成性能上表现出色，已接近当前最先进的多语言LLM。我们的工作为实现包容性人工智能迈出了重要一步，促进了高质量藏语处理的实现。

🔬 方法详解

问题定义：本文旨在解决藏语数据稀缺的问题，现有方法在低资源语言处理上效果不佳，缺乏足够的高质量数据支持。

核心思路：通过链式思维提示，自动生成多领域的藏语数据集TIBSTC-CoT，提供丰富的推理模式和语言理解能力，进而训练出高效的藏语语言模型。

技术框架：整体架构包括数据集构建、模型训练和评估三个主要模块。数据集构建通过大语言模型生成多样化的藏语文本，模型训练则基于生成的数据集进行优化。

关键创新：TIBSTC-CoT数据集的自动构建方法是本研究的核心创新，显著提高了低资源语言的数据获取效率，与传统手动标注方法相比，具有更高的可扩展性和可重复性。

关键设计：在模型训练中，采用了特定的损失函数和参数设置，以优化链式思维能力的学习，确保模型在推理和生成任务中的表现达到最优。具体的网络结构设计也针对藏语特性进行了调整。

📊 实验亮点

实验结果表明，基于TIBSTC-CoT训练的Sunshine-thinking LLM在推理和生成任务上表现出色，其性能与当前最先进的多语言LLM相当，展示了显著的提升幅度，证明了该方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括藏语的自然语言处理、智能翻译、语音识别等。通过提供高质量的藏语数据和模型，能够促进藏语相关技术的发展，提升藏语用户的数字体验，具有重要的社会和文化价值。

📄 摘要（原文）

To address the severe data scarcity in Tibetan, a low-resource language spoken by over six million people, we introduce TIBSTC-CoT, the large-scale, multi-domain Tibetan dataset automatically constructed via chain-of-thought prompting with large language models (LLMs). TIBSTC-CoT establishes a scalable and reproducible framework for dataset creation in low-resource settings, covering diverse domains and reasoning patterns essential for language understanding and generation. Building on this dataset, we develop the Sunshine-thinking LLM family, a series of Tibetan-centric LLMs equipped with chain-of-thought capabilities. Trained entirely on TIBSTC-CoT, Sunshine-thinking has demonstrated strong reasoning and generation performance, comparable to state-of-the-art (SOTA) multilingual LLMs. Our work marks a significant step toward inclusive AI by enabling high-quality Tibetan language processing through both resource creation and model innovation. All data are available: https://github.com/Vicentvankor/sun-shine.

TIBSTC-CoT: A Multi-Domain Instruction Dataset for Chain-of-Thought Reasoning in Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册