Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

📄 arXiv: 2603.05272v2 📥 PDF

作者: Mohammad Mamun Or Rashid

分类: cs.CL, cs.HC

发布日期: 2026-03-05 (更新: 2026-03-06)


💡 一句话要点

构建孟加拉国少数民族语言多模态平行语料库,助力濒危语言数字化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语种语料库 低资源语言 濒危语言 孟加拉国 多模态数据

📋 核心要点

  1. 孟加拉国少数民族语言资源匮乏,缺乏系统性的数字语料库,阻碍了相关语言的保护和研究。
  2. 构建包含文本、音频和IPA转录的多模态平行语料库,覆盖多种语言变体和语言学层面。
  3. 通过实地调查和专家标注,收集并整理了大规模高质量的数据集,并提供公开访问。

📝 摘要(中文)

本文提出了多语种云语料库,这是孟加拉国首个国家级、平行的、多模态的少数民族语言数据集。尽管孟加拉国拥有约40种分属四个语系的少数民族语言,但一直缺乏针对这些主要为口语、计算资源匮乏的语言的系统性、跨语系数字语料库,其中14种被列为濒危语言。我们的语料库包含85792个结构化文本条目,每个条目包含孟加拉语刺激文本、英语翻译和IPA转录,以及约107小时的转录音频记录,涵盖来自藏缅语系、印欧语系、南亚语系和达罗毗荼语系的42种语言变体,以及两种未进行基因分类的语言。数据通过在孟加拉国九个地区的90天系统实地调查收集,涉及16名数据收集员、77名发言人和43名验证员,遵循预定义的包含2224个独特项目的启发模板,这些项目在三个语言粒度级别上组织:孤立的词汇项目(22个语义领域的475个单词)、语法结构(21个类别的887个句子,包括动词变位范例)和定向语音(46个会话场景的862个提示)。实地处理后,由10名语言学家进行IPA转录,并由6名审阅者进行独立裁决。完整的数据集可通过多语种云平台(multiling.cloud)公开访问,提供对所有记录变体的带注释音频和文本数据的可搜索访问。我们描述了语料库设计、实地调查方法、数据集结构和每种语言的覆盖范围,并讨论了对语言多样性发展中国家的濒危语言记录、低资源NLP和数字保存的影响。

🔬 方法详解

问题定义:论文旨在解决孟加拉国少数民族语言缺乏数字化资源的问题。这些语言大多为口语,计算资源匮乏,缺乏系统性的语料库支持,导致濒危语言保护和低资源自然语言处理研究面临挑战。现有方法无法有效收集和整理这些语言的数据,也难以提供多模态、多层次的语言信息。

核心思路:论文的核心思路是通过系统性的实地调查,收集包含文本、音频和IPA转录的多模态数据,构建一个大规模、高质量的平行语料库。该语料库覆盖多种语言变体和语言学层面,旨在为濒危语言保护、低资源自然语言处理研究和数字保存提供支持。

技术框架:整体框架包括以下几个主要阶段:1) 语料库设计:确定语言变体、语言学层面和数据收集模板。2) 实地调查:在孟加拉国各地进行数据收集,涉及数据收集员、发言人和验证员。3) 数据处理:对收集到的数据进行清洗、转录和标注,包括IPA转录和独立裁决。4) 数据发布:通过多语种云平台公开访问数据集,提供可搜索的音频和文本数据。

关键创新:最重要的技术创新点在于构建了一个国家级的、平行的、多模态的少数民族语言数据集。该数据集不仅包含文本和音频数据,还提供了IPA转录,覆盖了多种语言变体和语言学层面。与现有方法相比,该方法更加系统化、全面化,能够有效收集和整理少数民族语言的数据。

关键设计:数据收集模板包含2224个独特项目,分为三个语言粒度级别:孤立的词汇项目(475个单词)、语法结构(887个句子)和定向语音(862个提示)。IPA转录由10名语言学家进行,并由6名审阅者进行独立裁决,以保证数据质量。数据集通过多语种云平台公开访问,提供可搜索的音频和文本数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

构建了包含85792个结构化文本条目和约107小时转录音频记录的语料库,覆盖42种语言变体。该语料库是孟加拉国首个国家级少数民族语言多模态平行语料库,为低资源NLP和濒危语言研究提供了重要资源。

🎯 应用场景

该研究成果可应用于濒危语言保护、低资源自然语言处理、跨语言信息检索、语音识别和合成等领域。该语料库为研究人员提供了宝贵的数据资源,有助于开发针对少数民族语言的自然语言处理技术,促进文化传承和语言多样性保护。

📄 摘要(原文)

We present the Multilingual Cloud Corpus, the first national-scale, parallel, multimodal linguistic dataset of Bangladesh's ethnic and indigenous languages. Despite being home to approximately 40 minority languages spanning four language families, Bangladesh has lacked a systematic, cross-family digital corpus for these predominantly oral, computationally "zero resource" varieties, 14 of which are classified as endangered. Our corpus comprises 85792 structured textual entries, each containing a Bengali stimulus text, an English translation, and an IPA transcription, together with approximately 107 hours of transcribed audio recordings, covering 42 language varieties from the Tibeto-Burman, Indo-European, Austro-Asiatic, and Dravidian families, plus two genetically unclassified languages. The data were collected through systematic fieldwork over 90 days across nine districts of Bangladesh, involving 16 data collectors, 77 speakers, and 43 validators, following a predefined elicitation template of 2224 unique items organized at three levels of linguistic granularity: isolated lexical items (475 words across 22 semantic domains), grammatical constructions (887 sentences across 21 categories including verbal conjugation paradigms), and directed speech (862 prompts across 46 conversational scenarios). Post-field processing included IPA transcription by 10 linguists with independent adjudication by 6 reviewers. The complete dataset is publicly accessible through the Multilingual Cloud platform (multiling.cloud), providing searchable access to annotated audio and textual data for all documented varieties. We describe the corpus design, fieldwork methodology, dataset structure, and per-language coverage, and discuss implications for endangered language documentation, low-resource NLP, and digital preservation in linguistically diverse developing countries.