An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions
作者: Avik Dutta, Harshit Nigam, Hosein Hasanbeig, Arjun Radhakrishna, Sumit Gulwani
分类: cs.AI
发布日期: 2026-01-08
备注: 4 pages, 1 figure, 1 table
💡 一句话要点
研究表明大语言模型在表格数据存在扭曲时缺乏鲁棒性,需显式提示才能部分纠正。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 表格数据 鲁棒性 数据扭曲 表格问答 错误纠正 提示学习
📋 核心要点
- 现有大语言模型在处理表格数据时,对表格中存在的细微语义和结构扭曲缺乏有效的检测和纠正能力。
- 该研究通过实验发现,仅当提供明确的先验知识时,大语言模型才能部分调整推理策略并纠正部分扭曲。
- 实验结果表明,即使是最先进的模型在表格数据存在扭曲的情况下,准确率也会显著下降,至少降低22%。
📝 摘要(中文)
本文研究了当表格数据遭受语义和结构扭曲时,大语言模型(LLM)的性能表现。研究结果表明,LLM缺乏检测和纠正表格表示中细微扭曲的内在能力。只有通过系统提示提供明确的先验知识时,模型才能部分调整其推理策略并纠正一些扭曲,但并非一致或完全。为了研究这种现象,我们引入了一个小型、专家策划的数据集,该数据集专门评估LLM在表格问答(TQA)任务中的表现,这些任务需要在分析之前进行额外的纠错步骤。结果揭示了LLM在扭曲下摄取和解释表格信息的系统性差异,即使是GPT-5.2等SoTA模型,其准确率也下降了至少22%。这些发现为未来的研究提出了重要问题,特别是关于模型何时以及如何自主决定重新对齐表格输入,类似于人类行为,而无需依赖显式提示或表格数据预处理。
🔬 方法详解
问题定义:论文旨在研究大语言模型在处理包含扭曲的表格数据时的鲁棒性问题。现有方法通常假设输入数据是干净且结构良好的,忽略了现实世界中表格数据可能存在的各种错误和不一致性,导致模型在实际应用中性能下降。
核心思路:论文的核心思路是通过引入包含语义和结构扭曲的表格数据,评估大语言模型在这些扭曲下的表现。通过观察模型在不同扭曲程度下的准确率变化,分析模型对表格数据鲁棒性的不足之处,并探讨如何通过显式提示来改善模型的性能。
技术框架:该研究主要采用实验方法。首先,构建一个小型、专家策划的表格问答数据集,该数据集包含需要纠错步骤才能正确回答的问题。然后,使用该数据集评估不同的大语言模型(包括SoTA模型)在处理扭曲表格数据时的性能。最后,通过分析实验结果,总结模型在处理不同类型扭曲时的表现,并探讨如何通过显式提示来提高模型的鲁棒性。
关键创新:该研究的关键创新在于关注大语言模型在处理扭曲表格数据时的鲁棒性问题,并提出了通过显式提示来改善模型性能的方法。与以往研究主要关注模型在干净数据上的性能不同,该研究更关注模型在实际应用中可能遇到的数据质量问题。
关键设计:数据集的设计是关键。该数据集包含多种类型的表格扭曲,例如数据缺失、数据类型错误、数据格式不一致等。此外,数据集中的问题需要模型在回答之前进行额外的纠错步骤,从而更好地评估模型的鲁棒性。实验中,使用了不同类型的提示,例如提供关于表格结构的先验知识,或者提供关于如何纠正扭曲的指导。
📊 实验亮点
实验结果表明,即使是GPT-5.2等SoTA模型,在处理包含扭曲的表格数据时,准确率也会下降至少22%。通过提供显式提示,模型可以部分纠正一些扭曲,但并非完全一致。这表明大语言模型在处理扭曲表格数据时,缺乏内在的鲁棒性,需要额外的干预才能提高性能。
🎯 应用场景
该研究成果可应用于提升大语言模型在处理现实世界表格数据时的可靠性和准确性。例如,在金融、医疗等领域,表格数据常包含各种错误和不一致性,该研究可以帮助开发更鲁棒的模型,减少因数据质量问题导致的错误决策。此外,该研究还可以为表格数据预处理和数据清洗提供指导。
📄 摘要(原文)
We investigate how large language models (LLMs) fail when tabular data in an otherwise canonical representation is subjected to semantic and structural distortions. Our findings reveal that LLMs lack an inherent ability to detect and correct subtle distortions in table representations. Only when provided with an explicit prior, via a system prompt, do models partially adjust their reasoning strategies and correct some distortions, though not consistently or completely. To study this phenomenon, we introduce a small, expert-curated dataset that explicitly evaluates LLMs on table question answering (TQA) tasks requiring an additional error-correction step prior to analysis. Our results reveal systematic differences in how LLMs ingest and interpret tabular information under distortion, with even SoTA models such as GPT-5.2 model exhibiting a drop of minimum 22% accuracy under distortion. These findings raise important questions for future research, particularly regarding when and how models should autonomously decide to realign tabular inputs, analogous to human behavior, without relying on explicit prompts or tabular data pre-processing.