Contrastive-to-Self-Supervised: A Two-Stage Framework for Script Similarity Learning

📄 arXiv: 2603.06180v1 📥 PDF

作者: Claire Roman, Philippe Meyer

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2026-03-06


💡 一句话要点

提出对比-自监督双阶段框架,用于文字相似性学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 文字相似性学习 对比学习 自监督学习 教师-学生蒸馏 字形识别

📋 核心要点

  1. 现有文字相似性学习方法难以处理文字体系间历史关系不确定性问题。
  2. 提出双阶段框架,先用对比学习训练教师模型,再用蒸馏学习无监督学生模型。
  3. 实验表明,该方法在少样本字形识别和文字体系聚类上表现出色。

📝 摘要(中文)

字形和书写系统相似性度量学习面临一个根本挑战:人造字母体系内的字素可以被可靠地标注,但不同文字体系之间的历史关系仍然不确定且存在争议。我们提出了一个双阶段框架来解决这个认识论约束。首先,我们使用对比损失在已标注的人造字母体系上训练一个编码器,建立一个具有鲁棒判别特征的教师模型。其次,我们通过教师-学生蒸馏扩展到历史上有据可查的文字体系,学生模型学习无监督表示,该表示由教师模型的知识指导,但可以自由地发现潜在的跨文字体系相似性。这种非对称设置使学生模型能够学习形变不变嵌入,同时继承来自干净样本的判别结构。我们的方法桥接了监督对比学习和无监督发现,实现了不同系统之间的硬边界和反映潜在历史影响的软相似性。在各种书写系统上的实验表明,该方法能够有效地进行少样本字形识别和有意义的文字体系聚类,而无需真实的演化关系。

🔬 方法详解

问题定义:论文旨在解决文字相似性学习中,由于不同文字体系间历史演变关系模糊不清,导致难以准确衡量它们之间相似性的问题。现有方法要么依赖于人工标注的演化关系,成本高昂且主观性强,要么难以有效利用无标签的真实文字数据,导致泛化能力不足。

核心思路:论文的核心思路是利用对比学习和教师-学生蒸馏,将监督学习的判别能力迁移到无监督学习中。首先,在易于标注的人造文字上训练一个具有区分能力的教师模型。然后,利用该教师模型指导学生模型学习真实文字的无监督表示,从而在无需人工标注的情况下,发现文字间的潜在相似性。

技术框架:该框架包含两个主要阶段:1) 对比学习阶段:使用对比损失函数,在已标注的人造字母数据集上训练教师编码器。该编码器旨在学习区分不同字形的特征表示。2) 教师-学生蒸馏阶段:使用训练好的教师编码器作为指导,训练学生编码器。学生编码器在未标注的真实文字数据集上进行训练,目标是模仿教师编码器的输出,同时学习自身的特征表示。

关键创新:该方法最重要的创新点在于将对比学习和自监督学习相结合,利用对比学习的判别能力和自监督学习的泛化能力,有效地解决了文字相似性学习中的数据稀疏和标签缺失问题。通过教师-学生蒸馏,实现了知识从人工文字到真实文字的迁移,避免了直接在复杂且无标签的真实文字上进行训练的困难。

关键设计:在对比学习阶段,使用了标准的对比损失函数,旨在拉近相同字形的特征表示,推远不同字形的特征表示。在教师-学生蒸馏阶段,使用了KL散度作为损失函数,旨在最小化学生编码器的输出分布与教师编码器的输出分布之间的差异。此外,论文还探索了不同的网络结构和超参数设置,以优化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在少样本字形识别和文字体系聚类任务上取得了显著的性能提升。例如,在少样本字形识别任务中,该方法在多个数据集上超越了现有的基线方法。在文字体系聚类任务中,该方法能够有效地将具有相似历史渊源的文字体系聚类在一起,验证了其学习到的特征表示具有良好的语义信息。

🎯 应用场景

该研究成果可应用于古文字识别、文字体系演化分析、字体设计、多语言文档处理等领域。通过学习文字间的相似性,可以帮助研究人员更好地理解文字的起源和发展,促进不同文化之间的交流和理解。此外,该方法还可以用于自动识别和分类未知文字,为文化遗产保护和数字化提供技术支持。

📄 摘要(原文)

Learning similarity metrics for glyphs and writing systems faces a fundamental challenge: while individual graphemes within invented alphabets can be reliably labeled, the historical relationships between different scripts remain uncertain and contested. We propose a two-stage framework that addresses this epistemological constraint. First, we train an encoder with contrastive loss on labeled invented alphabets, establishing a teacher model with robust discriminative features. Second, we extend to historically attested scripts through teacher-student distillation, where the student learns unsupervised representations guided by the teacher's knowledge but free to discover latent cross-script similarities. The asymmetric setup enables the student to learn deformation-invariant embeddings while inheriting discriminative structure from clean examples. Our approach bridges supervised contrastive learning and unsupervised discovery, enabling both hard boundaries between distinct systems and soft similarities reflecting potential historical influences. Experiments on diverse writing systems demonstrate effective few-shot glyph recognition and meaningful script clustering without requiring ground-truth evolutionary relationships.