Evaluating CxG Generalisation in LLMs via Construction-Based NLI Fine Tuning

📄 arXiv: 2509.16422v1 📥 PDF

作者: Tom Mackintosh, Harish Tayyar Madabushi, Claire Bonial

分类: cs.CL

发布日期: 2025-09-19


💡 一句话要点

提出ConTest-NLI基准,评估LLM在基于构式语法的NLI泛化能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 构式语法 自然语言推理 大型语言模型 对抗性数据 基准测试

📋 核心要点

  1. 现有LLM在学习深层形式-意义映射方面存在不足,尤其是在处理构式语法时。
  2. 论文提出ConTest-NLI基准,通过生成对抗性NLI数据来评估LLM的泛化能力。
  3. 实验表明,LLM在对抗性数据上的表现显著下降,微调后虽有提升但仍存在差距。

📝 摘要(中文)

本文旨在探究大型语言模型(LLM)学习由构式语法定义的深层形式-意义映射的能力。为此,我们引入了ConTest-NLI基准,它包含8万个句子,涵盖了从高度词汇化到高度图式的八种英语构式。我们的流程通过模板化和模型在环过滤生成多样化的合成NLI三元组,并结合人工验证,以确保挑战性和标签可靠性。在领先的LLM上的零样本测试表明,自然数据(88%)和对抗数据(64%)之间的准确率下降了24%,其中图式模式被证明是最难的。在ConTest-NLI的一个子集上进行微调可产生高达9%的改进,但我们的结果突出了当前LLM中仍然存在的抽象差距,并提供了一个可扩展的框架来评估基于构式的学习。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在理解和泛化构式语法(Construction Grammar, CxG)方面的能力。现有方法缺乏针对构式语法的专门评估基准,难以准确衡量LLM对深层形式-意义映射的学习效果。此外,现有NLI数据集可能无法充分覆盖构式语法的各种模式,导致LLM在处理对抗性或图式构式时表现不佳。

核心思路:论文的核心思路是构建一个专门针对构式语法的NLI基准(ConTest-NLI),并利用该基准来评估LLM的泛化能力。通过生成包含不同构式模式的对抗性NLI数据,可以更有效地揭示LLM在理解深层语义关系方面的不足。此外,通过在ConTest-NLI上进行微调,可以提升LLM对构式语法的理解能力。

技术框架:论文的技术框架主要包括以下几个步骤:1) 定义目标构式:选择涵盖不同抽象程度的英语构式,例如“The X-er the Y-er”等。2) 生成NLI三元组:利用模板化方法和模型在环过滤生成包含前提、假设和标签的NLI三元组。3) 构建ConTest-NLI基准:将生成的NLI三元组整理成数据集,并进行人工验证以确保标签的准确性。4) 评估LLM:在ConTest-NLI上进行零样本测试和微调,评估LLM的泛化能力。

关键创新:论文的关键创新在于提出了ConTest-NLI基准,这是一个专门针对构式语法的NLI数据集。与现有的NLI数据集相比,ConTest-NLI更侧重于评估LLM对深层形式-意义映射的理解能力,并包含更多对抗性和图式构式。此外,论文还提出了一种基于模板化和模型在环过滤的NLI数据生成方法,可以高效地生成高质量的对抗性数据。

关键设计:在NLI数据生成过程中,论文采用了模板化方法,根据预定义的构式模式生成句子。为了确保数据的质量,论文还引入了模型在环过滤机制,利用LLM对生成的句子进行评估,并筛选出具有挑战性和标签可靠性的数据。此外,论文还进行了人工验证,以进一步提高数据的准确性。在微调过程中,论文采用了标准的NLI微调方法,并探索了不同的学习率和训练策略。

📊 实验亮点

实验结果表明,在ConTest-NLI基准上,LLM在自然数据上的准确率为88%,而在对抗性数据上的准确率下降至64%,表明LLM在处理构式语法时存在泛化问题。在ConTest-NLI的一个子集上进行微调后,LLM的准确率提高了9%,但仍然存在一定的差距,表明当前LLM在抽象能力方面仍有提升空间。

🎯 应用场景

该研究成果可应用于提升LLM在自然语言理解、机器翻译和对话系统等领域的性能。通过提高LLM对构式语法的理解能力,可以使其更好地处理复杂的语义关系,从而提高其在各种NLP任务中的表现。此外,ConTest-NLI基准可以作为评估和改进LLM的通用工具。

📄 摘要(原文)

We probe large language models' ability to learn deep form-meaning mappings as defined by construction grammars. We introduce the ConTest-NLI benchmark of 80k sentences covering eight English constructions from highly lexicalized to highly schematic. Our pipeline generates diverse synthetic NLI triples via templating and the application of a model-in-the-loop filter. This provides aspects of human validation to ensure challenge and label reliability. Zero-shot tests on leading LLMs reveal a 24% drop in accuracy between naturalistic (88%) and adversarial data (64%), with schematic patterns proving hardest. Fine-tuning on a subset of ConTest-NLI yields up to 9% improvement, yet our results highlight persistent abstraction gaps in current LLMs and offer a scalable framework for evaluating construction-informed learning.