SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers

📄 arXiv: 2601.04469v1 📥 PDF

作者: Iaroslav Chelombitko, Ekaterina Chelombitko, Aleksey Komissarov

分类: cs.CL, cs.IR, cs.LG

发布日期: 2026-01-08

备注: Accepted to the 10th International Workshop on Computational Linguistics for Uralic Languages (IWCLUL 2025), pp. 57-67

🔗 代码/项目: GITHUB


💡 一句话要点

SampoNLP:一种自参照工具包,用于亚词分词器的形态分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 亚词分词 形态分析 低资源语言 乌拉尔语系 BPE分词器

📋 核心要点

  1. 大型语言模型依赖高质量的亚词分词,但乌拉尔语系缺乏干净的语素词典阻碍了分词器评估。
  2. SampoNLP利用自参照原子性评分,无需语料库即可创建高纯度形态词典,适用于低资源场景。
  3. 通过综合性能得分(IPS)分析,为芬兰语、匈牙利语和爱沙尼亚语BPE分词器推荐了最佳词汇量。

📝 摘要(中文)

亚词分词的质量对于大型语言模型至关重要,然而,由于缺乏清晰的语素词典,评估针对形态丰富的乌拉尔语系语言的分词器变得困难。我们介绍了SampoNLP,一个无需语料库的工具包,用于使用受MDL启发的自参照原子性评分来创建形态词典,该评分通过内部结构线索过滤复合形式,适用于低资源环境。利用SampoNLP为芬兰语、匈牙利语和爱沙尼亚语生成的高纯度词典,我们对一系列词汇量大小(8k-256k)的BPE分词器进行了系统评估。我们提出了一个统一的指标,即综合性能得分(IPS),以应对语素覆盖率和过度分割之间的权衡。通过分析IPS曲线,我们确定了收益递减的“肘点”,并为这些语言的最佳词汇量大小(k)提供了第一个基于经验的建议。我们的研究不仅提供了实践指导,而且定量地证明了标准BPE对于高度粘着性语言的局限性。SampoNLP库和所有生成的资源均已公开发布。

🔬 方法详解

问题定义:论文旨在解决形态丰富的乌拉尔语系语言(如芬兰语、匈牙利语和爱沙尼亚语)的亚词分词器评估问题。现有方法依赖于高质量的语素词典,但这些资源在低资源语言中往往缺失或不完整,导致分词器性能评估不准确,难以找到最佳词汇量配置。标准BPE算法在处理高度粘着性语言时,容易过度分割语素,影响模型性能。

核心思路:论文的核心思路是利用自参照原子性评分(Self-Referential Atomicity Scoring)来自动构建高纯度的语素词典,无需依赖外部语料库。该方法通过分析词的内部结构线索,判断其是否为原子语素,从而过滤掉复合形式。基于构建的词典,论文提出综合性能得分(IPS)来平衡语素覆盖率和过度分割,从而优化BPE分词器的词汇量大小。

技术框架:SampoNLP工具包包含以下主要模块:1) 自参照原子性评分模块:用于自动构建高纯度语素词典。2) BPE分词器评估模块:使用构建的词典评估不同词汇量大小的BPE分词器。3) 综合性能得分(IPS)计算模块:用于计算IPS指标,并确定最佳词汇量大小。整体流程为:首先,使用自参照原子性评分构建语素词典;然后,使用该词典评估不同词汇量大小的BPE分词器;最后,计算IPS指标,并根据IPS曲线确定最佳词汇量大小。

关键创新:论文的关键创新在于提出了自参照原子性评分方法,该方法无需语料库即可自动构建高纯度的语素词典,解决了低资源语言中语素词典缺失的问题。此外,论文还提出了综合性能得分(IPS)指标,该指标能够平衡语素覆盖率和过度分割,从而更准确地评估BPE分词器的性能。与现有方法相比,SampoNLP无需人工标注语料,能够自动化地构建语素词典并评估分词器性能。

关键设计:自参照原子性评分的关键设计在于利用词的内部结构线索来判断其是否为原子语素。具体来说,该方法计算词的每个子词的原子性得分,并根据得分判断该词是否为复合形式。IPS指标的关键设计在于平衡语素覆盖率和过度分割。具体来说,IPS指标将语素覆盖率和过度分割率进行加权平均,从而综合评估分词器的性能。论文中,BPE分词器的词汇量大小范围为8k-256k,通过分析IPS曲线,确定收益递减的“肘点”,从而推荐最佳词汇量大小。

📊 实验亮点

实验结果表明,SampoNLP能够为芬兰语、匈牙利语和爱沙尼亚语生成高纯度的语素词典。通过分析IPS曲线,论文为这些语言的BPE分词器推荐了最佳词汇量大小。例如,对于芬兰语,推荐的词汇量大小为64k。实验还定量地证明了标准BPE对于高度粘着性语言的局限性,表明需要更专门的分词方法。

🎯 应用场景

该研究成果可应用于低资源语言的自然语言处理任务,例如机器翻译、文本分类和信息检索。通过自动构建高质量的语素词典和优化亚词分词器,可以提高这些任务的性能。此外,该研究还可以为其他形态丰富的语言的分词器设计提供参考,促进跨语言自然语言处理的发展。未来,该方法可以扩展到其他语言,并与其他分词算法结合,进一步提高分词性能。

📄 摘要(原文)

The quality of subword tokenization is critical for Large Language Models, yet evaluating tokenizers for morphologically rich Uralic languages is hampered by the lack of clean morpheme lexicons. We introduce SampoNLP, a corpus-free toolkit for morphological lexicon creation using MDL-inspired Self-Referential Atomicity Scoring, which filters composite forms through internal structural cues - suited for low-resource settings. Using the high-purity lexicons generated by SampoNLP for Finnish, Hungarian, and Estonian, we conduct a systematic evaluation of BPE tokenizers across a range of vocabulary sizes (8k-256k). We propose a unified metric, the Integrated Performance Score (IPS), to navigate the trade-off between morpheme coverage and over-splitting. By analyzing the IPS curves, we identify the "elbow points" of diminishing returns and provide the first empirically grounded recommendations for optimal vocabulary sizes (k) in these languages. Our study not only offers practical guidance but also quantitatively demonstrates the limitations of standard BPE for highly agglutinative languages. The SampoNLP library and all generated resources are made publicly available: https://github.com/AragonerUA/SampoNLP