Semantically Orthogonal Framework for Citation Classification: Disentangling Intent and Content

📄 arXiv: 2601.05103v1 📥 PDF

作者: Changxu Duan, Zhiyin Tan

分类: cs.DL, cs.CL

发布日期: 2026-01-08

备注: Accepted at the 29th International Conference on Theory and Practice of Digital Libraries (TPDL 2025)

DOI: 10.1007/978-3-032-05409-8_12

🔗 代码/项目: GITHUB


💡 一句话要点

提出SOFT框架,解耦引用意图与内容类型,提升引文分类效果

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 引文分类 语义正交 引用意图 内容类型 大型语言模型 标注框架 跨领域泛化

📋 核心要点

  1. 现有引文分类框架混淆引用意图与内容类型,导致细粒度区分和分类可靠性之间的矛盾。
  2. SOFT框架通过解耦引用意图和内容类型,采用语义正交的两维度标注,提升分类效果。
  3. 实验表明,SOFT框架提高了标注一致性,增强了分类性能,并实现了更好的跨领域泛化能力。

📝 摘要(中文)

理解引用的作用对于研究评估和引文感知的数字图书馆至关重要。然而,现有的引文分类框架常常混淆引用意图(为何引用某项工作)与被引用内容类型(引用了哪部分内容),这限制了它们在自动分类中的有效性,导致了细粒度类型区分和实际分类可靠性之间的两难。我们引入了SOFT,一个具有两个维度的语义正交框架,它显式地将引用意图与被引用内容类型分离,灵感来源于语义角色理论。我们使用SOFT系统地重新标注了ACL-ARC数据集,并发布了一个从ACT2采样的跨学科测试集。使用零样本和微调的大型语言模型进行的评估表明,与ACL-ARC和SciCite标注框架相比,SOFT能够实现更高的人工标注者与LLM之间的一致性,并支持更强的分类性能和稳健的跨领域泛化。这些结果证实了SOFT作为一种清晰、可重用的标注标准的价值,提高了数字图书馆和学术交流基础设施的清晰度、一致性和通用性。所有代码和数据都可以在GitHub上公开获取。

🔬 方法详解

问题定义:现有引文分类方法的主要痛点在于混淆了引用意图(why)和被引用内容类型(what),导致分类粒度与可靠性难以兼顾。例如,一个引用可能既是“支持”性的,又是针对“方法”的,现有框架难以清晰区分这两种信息。这种混淆限制了自动分类的准确性和泛化能力。

核心思路:SOFT框架的核心思路是将引用意图和被引用内容类型视为两个正交的维度,分别进行标注。借鉴语义角色理论,将引文视为一个事件,其中引用意图是事件的“动作”,被引用内容类型是事件的“对象”。通过解耦这两个维度,可以更清晰地表达引文的语义信息。

技术框架:SOFT框架包含两个主要部分:一是新的标注体系,二是基于该体系的引文分类模型。标注体系定义了引用意图和内容类型的类别,并提供了详细的标注指南。分类模型可以使用各种机器学习或深度学习方法,例如,可以使用大型语言模型(LLM)进行零样本或微调分类。整体流程包括数据收集、SOFT标注、模型训练/微调和评估。

关键创新:SOFT框架最重要的创新点在于其语义正交的标注体系,它显式地分离了引用意图和内容类型,解决了现有框架的混淆问题。这种解耦使得模型能够更准确地学习引文的语义信息,从而提高了分类性能和泛化能力。此外,SOFT框架还提供了一个新的跨学科测试集,用于评估模型的跨领域泛化能力。

关键设计:SOFT框架的关键设计包括:1) 精心设计的引用意图和内容类型类别,确保类别之间的互斥性和完备性;2) 详细的标注指南,以提高标注的一致性;3) 使用大型语言模型(如BERT、RoBERTa)进行微调,以充分利用预训练语言模型的语义表示能力;4) 采用合适的评估指标,如准确率、精确率、召回率和F1值,来评估模型的性能。

📊 实验亮点

实验结果表明,使用SOFT框架标注的数据集,大型语言模型在引文分类任务上取得了显著的性能提升。与ACL-ARC和SciCite数据集相比,SOFT框架实现了更高的人工标注一致性,并且在跨领域测试集上表现出更强的泛化能力。具体而言,使用SOFT框架微调的模型在准确率、精确率、召回率和F1值等指标上均优于基线模型。

🎯 应用场景

SOFT框架可应用于引文网络分析、学术搜索引擎、研究评估和数字图书馆等领域。通过更准确地理解引用的作用,可以改进学术文献的检索、推荐和评价,促进学术交流和知识发现。未来,SOFT框架可以扩展到其他类型的学术文本,例如摘要、结论等,以实现更全面的语义分析。

📄 摘要(原文)

Understanding the role of citations is essential for research assessment and citation-aware digital libraries. However, existing citation classification frameworks often conflate citation intent (why a work is cited) with cited content type (what part is cited), limiting their effectiveness in auto classification due to a dilemma between fine-grained type distinctions and practical classification reliability. We introduce SOFT, a Semantically Orthogonal Framework with Two dimensions that explicitly separates citation intent from cited content type, drawing inspiration from semantic role theory. We systematically re-annotate the ACL-ARC dataset using SOFT and release a cross-disciplinary test set sampled from ACT2. Evaluation with both zero-shot and fine-tuned Large Language Models demonstrates that SOFT enables higher agreement between human annotators and LLMs, and supports stronger classification performance and robust cross-domain generalization compared to ACL-ARC and SciCite annotation frameworks. These results confirm SOFT's value as a clear, reusable annotation standard, improving clarity, consistency, and generalizability for digital libraries and scholarly communication infrastructures. All code and data are publicly available on GitHub https://github.com/zhiyintan/SOFT.