Exploring the Performance of Large Language Models on Subjective Span Identification Tasks

📄 arXiv: 2601.00736v1 📥 PDF

作者: Alphaeus Dmonte, Roland Oruche, Tharindu Ranasinghe, Marcos Zampieri, Prasad Calyam

分类: cs.CL, cs.AI

发布日期: 2026-01-02


💡 一句话要点

探索大语言模型在主观文本跨度识别任务中的性能表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 文本跨度识别 主观任务 情感分析 指令调优

📋 核心要点

  1. 现有跨度识别方法主要依赖小型预训练模型,缺乏对主观性较强任务的探索。
  2. 论文评估了LLM在情感分析等任务中识别文本跨度的能力,并探索了多种LLM策略。
  3. 实验结果表明,文本内部关系有助于LLM更准确地识别文本跨度,提升识别性能。

📝 摘要(中文)

识别相关文本跨度对于自然语言处理中的多个下游任务至关重要,因为它有助于模型的可解释性。虽然大多数跨度识别方法依赖于相对较小的预训练语言模型(如BERT),但最近的一些方法已经利用最新一代的大型语言模型(LLM)来完成这项任务。目前的工作主要集中在显式跨度识别上,如命名实体识别(NER),而对于基于方面的情感分析(ABSA)等任务中,使用LLM进行更主观的跨度识别的研究还不够充分。在本文中,我们通过评估各种LLM在情感分析、冒犯性语言识别和声明验证这三个流行的任务中对文本跨度识别的性能,来填补这一重要空白。我们探索了几种LLM策略,如指令调优、上下文学习和思维链。我们的结果表明,文本中的潜在关系有助于LLM识别精确的文本跨度。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在主观文本跨度识别任务中的性能。现有方法主要集中在命名实体识别等显式跨度识别任务上,而对于情感分析、冒犯性语言识别等主观性更强的任务,LLM的应用和性能评估还不够充分。现有方法的痛点在于缺乏对LLM在主观跨度识别任务上的系统性研究,无法充分发挥LLM的潜力。

核心思路:论文的核心思路是利用LLM强大的语言理解和生成能力,通过不同的策略(如指令调优、上下文学习和思维链)来引导LLM识别文本中与特定方面或情感相关的跨度。通过探索文本内部关系,使LLM能够更准确地定位和提取目标跨度。

技术框架:论文采用了一种实验评估框架,包括以下主要步骤:1)选择三个具有代表性的主观跨度识别任务:情感分析、冒犯性语言识别和声明验证;2)选择多个具有代表性的LLM,如GPT-3、T5等;3)设计不同的LLM策略,如指令调优、上下文学习和思维链;4)在选定的任务上评估LLM的性能,并分析结果。

关键创新:论文的关键创新在于:1)首次系统性地评估了LLM在主观文本跨度识别任务中的性能;2)探索了多种LLM策略,并分析了它们对性能的影响;3)揭示了文本内部关系对LLM跨度识别能力的影响。与现有方法相比,该论文更关注LLM在主观任务上的应用,并提供了更全面的性能评估和策略分析。

关键设计:论文的关键设计包括:1)针对每个任务设计了合适的指令,以引导LLM进行跨度识别;2)采用了不同的上下文学习策略,如提供少量示例或使用思维链;3)使用标准的评估指标,如精确率、召回率和F1值,来评估LLM的性能。具体的参数设置和网络结构取决于所使用的LLM,论文中可能没有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了LLM在主观文本跨度识别任务中的潜力。实验结果表明,通过合适的策略(如指令调优和上下文学习),LLM能够有效地识别文本中的相关跨度。虽然具体的性能数据和提升幅度未在摘要中明确给出,但研究强调了文本内部关系对LLM识别能力的重要性。

🎯 应用场景

该研究成果可应用于多个领域,如舆情分析、产品评论挖掘、虚假信息检测等。通过准确识别文本中的关键跨度,可以提高信息提取的效率和准确性,为决策提供更可靠的依据。未来,该研究可进一步扩展到其他主观性更强的任务,如观点挖掘、论点识别等。

📄 摘要(原文)

Identifying relevant text spans is important for several downstream tasks in NLP, as it contributes to model explainability. While most span identification approaches rely on relatively smaller pre-trained language models like BERT, a few recent approaches have leveraged the latest generation of Large Language Models (LLMs) for the task. Current work has focused on explicit span identification like Named Entity Recognition (NER), while more subjective span identification with LLMs in tasks like Aspect-based Sentiment Analysis (ABSA) has been underexplored. In this paper, we fill this important gap by presenting an evaluation of the performance of various LLMs on text span identification in three popular tasks, namely sentiment analysis, offensive language identification, and claim verification. We explore several LLM strategies like instruction tuning, in-context learning, and chain of thought. Our results indicate underlying relationships within text aid LLMs in identifying precise text spans.