Evaluating CxG Generalisation in LLMs via Construction-Based NLI Fine Tuning

作者: Tom Mackintosh, Harish Tayyar Madabushi, Claire Bonial

分类: cs.CL

发布日期: 2025-09-19

💡 一句话要点

提出ConTest-NLI基准，评估LLM在基于构式语法的NLI泛化能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 构式语法 自然语言推理 大型语言模型 对抗性数据 基准测试

📋 核心要点

现有LLM在学习深层形式-意义映射方面存在不足，尤其是在处理构式语法时。
论文提出ConTest-NLI基准，通过生成对抗性NLI数据来评估LLM的泛化能力。
实验表明，LLM在对抗性数据上的表现显著下降，微调后虽有提升但仍存在差距。

📝 摘要（中文）

本文旨在探究大型语言模型（LLM）学习由构式语法定义的深层形式-意义映射的能力。为此，我们引入了ConTest-NLI基准，它包含8万个句子，涵盖了从高度词汇化到高度图式的八种英语构式。我们的流程通过模板化和模型在环过滤生成多样化的合成NLI三元组，并结合人工验证，以确保挑战性和标签可靠性。在领先的LLM上的零样本测试表明，自然数据（88%）和对抗数据（64%）之间的准确率下降了24%，其中图式模式被证明是最难的。在ConTest-NLI的一个子集上进行微调可产生高达9%的改进，但我们的结果突出了当前LLM中仍然存在的抽象差距，并提供了一个可扩展的框架来评估基于构式的学习。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLM）在理解和泛化构式语法（Construction Grammar, CxG）方面的能力。现有方法缺乏针对构式语法的专门评估基准，难以准确衡量LLM对深层形式-意义映射的学习效果。此外，现有NLI数据集可能无法充分覆盖构式语法的各种模式，导致LLM在处理对抗性或图式构式时表现不佳。

核心思路：论文的核心思路是构建一个专门针对构式语法的NLI基准（ConTest-NLI），并利用该基准来评估LLM的泛化能力。通过生成包含不同构式模式的对抗性NLI数据，可以更有效地揭示LLM在理解深层语义关系方面的不足。此外，通过在ConTest-NLI上进行微调，可以提升LLM对构式语法的理解能力。

技术框架：论文的技术框架主要包括以下几个步骤：1) 定义目标构式：选择涵盖不同抽象程度的英语构式，例如“The X-er the Y-er”等。2) 生成NLI三元组：利用模板化方法和模型在环过滤生成包含前提、假设和标签的NLI三元组。3) 构建ConTest-NLI基准：将生成的NLI三元组整理成数据集，并进行人工验证以确保标签的准确性。4) 评估LLM：在ConTest-NLI上进行零样本测试和微调，评估LLM的泛化能力。

关键创新：论文的关键创新在于提出了ConTest-NLI基准，这是一个专门针对构式语法的NLI数据集。与现有的NLI数据集相比，ConTest-NLI更侧重于评估LLM对深层形式-意义映射的理解能力，并包含更多对抗性和图式构式。此外，论文还提出了一种基于模板化和模型在环过滤的NLI数据生成方法，可以高效地生成高质量的对抗性数据。

关键设计：在NLI数据生成过程中，论文采用了模板化方法，根据预定义的构式模式生成句子。为了确保数据的质量，论文还引入了模型在环过滤机制，利用LLM对生成的句子进行评估，并筛选出具有挑战性和标签可靠性的数据。此外，论文还进行了人工验证，以进一步提高数据的准确性。在微调过程中，论文采用了标准的NLI微调方法，并探索了不同的学习率和训练策略。

📊 实验亮点

实验结果表明，在ConTest-NLI基准上，LLM在自然数据上的准确率为88%，而在对抗性数据上的准确率下降至64%，表明LLM在处理构式语法时存在泛化问题。在ConTest-NLI的一个子集上进行微调后，LLM的准确率提高了9%，但仍然存在一定的差距，表明当前LLM在抽象能力方面仍有提升空间。

🎯 应用场景

该研究成果可应用于提升LLM在自然语言理解、机器翻译和对话系统等领域的性能。通过提高LLM对构式语法的理解能力，可以使其更好地处理复杂的语义关系，从而提高其在各种NLP任务中的表现。此外，ConTest-NLI基准可以作为评估和改进LLM的通用工具。

📄 摘要（原文）

We probe large language models' ability to learn deep form-meaning mappings as defined by construction grammars. We introduce the ConTest-NLI benchmark of 80k sentences covering eight English constructions from highly lexicalized to highly schematic. Our pipeline generates diverse synthetic NLI triples via templating and the application of a model-in-the-loop filter. This provides aspects of human validation to ensure challenge and label reliability. Zero-shot tests on leading LLMs reveal a 24% drop in accuracy between naturalistic (88%) and adversarial data (64%), with schematic patterns proving hardest. Fine-tuning on a subset of ConTest-NLI yields up to 9% improvement, yet our results highlight persistent abstraction gaps in current LLMs and offer a scalable framework for evaluating construction-informed learning.

Evaluating CxG Generalisation in LLMs via Construction-Based NLI Fine Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册