An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

📄 arXiv: 2603.05400v1 📥 PDF

作者: Deshan Sumanathilaka, Nicholas Micallef, Julian Hough

分类: cs.CL

发布日期: 2026-03-05

备注: Accepted at LREC 2026, 15 pages, 11 Tables


💡 一句话要点

提出探索-分析-消歧推理框架,利用低参数LLM实现媲美GPT-4-Turbo的词义消歧。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 词义消歧 低参数LLM 思维链 推理 自然语言处理 模型微调 上下文理解

📋 核心要点

  1. 现有高参数LLM在词义消歧(WSD)上表现出色,但计算和能源成本高昂,限制了其应用。
  2. 论文提出探索-分析-消歧推理框架,通过思维链(CoT)和邻近词分析增强低参数LLM的推理能力。
  3. 实验表明,微调后的Gemma-3-4B和Qwen-3-4B模型在FEWS数据集上超越了现有模型,并具有良好的泛化能力。

📝 摘要(中文)

词义消歧(WSD)是自然语言处理(NLP)中的一个关键挑战,尤其是在处理罕见或特定领域的词义时,这些词义经常被误解。虽然像GPT-4-Turbo这样的大型语言模型(LLM)已经展示了最先进的WSD性能,但它们的计算和能源需求限制了可扩展性。本研究探讨了低参数LLM(<40亿参数)是否可以通过强调推理驱动的词义识别的微调策略来实现相当的结果。使用FEWS数据集,该数据集通过半自动的、富含理由的注释进行增强,我们微调了八个小型开源LLM(例如Gemma和Qwen)。我们的结果表明,基于思维链(CoT)的推理与邻近词分析相结合,在零样本设置中实现了与GPT-4-Turbo相当的性能。重要的是,Gemma-3-4B和Qwen-3-4B模型在FEWS上始终优于所有中等参数基线和最先进的模型,并且对未见过的词义具有强大的泛化能力。此外,在未见过的“Fool Me If You Can”数据集上的评估证实了强大的跨领域适应性,无需特定于任务的微调。这项工作表明,通过精心设计的以推理为中心的微调,低参数LLM可以提供准确的WSD,同时显著降低计算和能源需求。

🔬 方法详解

问题定义:论文旨在解决词义消歧(WSD)问题,特别是针对罕见或领域特定的词义。现有高参数LLM虽然性能优异,但计算资源消耗巨大,难以部署。低参数模型在WSD任务中表现不佳,难以有效利用上下文信息进行准确消歧。

核心思路:论文的核心思路是利用思维链(Chain-of-Thought, CoT)推理和邻近词分析来增强低参数LLM的推理能力,使其能够更好地理解上下文并进行准确的词义消歧。通过模仿人类的推理过程,模型可以逐步分析上下文信息,从而更准确地判断词义。

技术框架:论文提出的框架包含三个主要阶段:探索(Exploration)、分析(Analysis)和消歧(Disambiguation)。在探索阶段,模型探索可能的词义;在分析阶段,模型利用CoT推理和邻近词分析来理解上下文;在消歧阶段,模型根据分析结果选择最合适的词义。整个流程旨在模拟人类的推理过程,提高消歧的准确性。

关键创新:论文的关键创新在于将CoT推理和邻近词分析相结合,并应用于低参数LLM的词义消歧任务。这种方法使得低参数模型能够有效地利用上下文信息,从而在WSD任务中取得与高参数模型相媲美的性能。此外,论文还提出了半自动的、富含理由的注释方法,用于增强训练数据。

关键设计:论文使用了Gemma-3-4B和Qwen-3-4B等低参数LLM作为基础模型,并使用FEWS数据集进行微调。在CoT推理中,模型被训练生成解释其推理过程的文本。邻近词分析则通过分析目标词周围的词语来提供上下文信息。损失函数采用交叉熵损失,优化器采用AdamW。具体参数设置未详细说明,可能使用了默认或常用的参数设置。

📊 实验亮点

实验结果表明,经过微调的Gemma-3-4B和Qwen-3-4B模型在FEWS数据集上超越了所有中等参数基线和最先进的模型,并且对未见过的词义具有强大的泛化能力。在“Fool Me If You Can”数据集上的评估证实了强大的跨领域适应性,无需特定于任务的微调。性能接近甚至在某些方面超过了GPT-4-Turbo。

🎯 应用场景

该研究成果可应用于机器翻译、信息检索、文本摘要等多个自然语言处理领域。通过降低词义消歧的计算成本,可以促进NLP技术在资源受限环境中的应用,例如移动设备和嵌入式系统。此外,该方法还有助于提高机器对自然语言的理解能力,从而改善人机交互体验。

📄 摘要(原文)

Word Sense Disambiguation (WSD) remains a key challenge in Natural Language Processing (NLP), especially when dealing with rare or domain-specific senses that are often misinterpreted. While modern high-parameter Large Language Models (LLMs) such as GPT-4-Turbo have shown state-of-the-art WSD performance, their computational and energy demands limit scalability. This study investigates whether low-parameter LLMs (<4B parameters) can achieve comparable results through fine-tuning strategies that emphasize reasoning-driven sense identification. Using the FEWS dataset augmented with semi-automated, rationale-rich annotations, we fine-tune eight small-scale open-source LLMs (e.g. Gemma and Qwen). Our results reveal that Chain-of-Thought (CoT)-based reasoning combined with neighbour-word analysis achieves performance comparable to GPT-4-Turbo in zero-shot settings. Importantly, Gemma-3-4B and Qwen-3-4B models consistently outperform all medium-parameter baselines and state-of-the-art models on FEWS, with robust generalization to unseen senses. Furthermore, evaluation on the unseen "Fool Me If You Can'' dataset confirms strong cross-domain adaptability without task-specific fine-tuning. This work demonstrates that with carefully crafted reasoning-centric fine-tuning, low-parameter LLMs can deliver accurate WSD while substantially reducing computational and energy demands.