Do LLM Self-Explanations Help Users Predict Model Behavior? Evaluating Counterfactual Simulatability with Pragmatic Perturbations

📄 arXiv: 2601.03775v1 📥 PDF

作者: Pingjun Hong, Benjamin Roth

分类: cs.CL

发布日期: 2026-01-07


💡 一句话要点

评估LLM自解释在反事实模拟中的作用:基于语用扰动的用户行为预测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自解释 反事实模拟 可解释性 语用学扰动

📋 核心要点

  1. 现有研究表明,LLM的自解释可能无法准确反映其决策过程,这给用户理解和预测模型行为带来了挑战。
  2. 本文提出通过反事实模拟来评估LLM自解释的有效性,即考察解释能否帮助用户预测模型在问题发生变化时的行为。
  3. 实验结果表明,自解释能够提高人类和LLM判断者预测模型行为的准确性,但效果受扰动策略和判断者能力的影响。

📝 摘要(中文)

大型语言模型(LLM)能够生成口头自解释,但先前的研究表明,这些解释可能无法可靠地反映模型真实的决策过程。本文探讨了这些解释是否能帮助用户预测模型行为,具体体现为反事实模拟能力。使用StrategyQA数据集,我们评估了人类和LLM判断者在有或没有模型思维链或事后解释的情况下,预测模型对反事实后续问题的回答的能力。我们将LLM生成的反事实问题与基于语用学的扰动作为评估解释潜在效用的测试用例。结果表明,自解释始终能提高LLM判断者和人类的模拟准确性,但收益的程度和稳定性很大程度上取决于扰动策略和判断者的能力。我们还对人类用户在预测模型行为时编写的自由文本理由进行了定性分析,结果表明,访问解释有助于人类对扰动问题形成更准确的预测。

🔬 方法详解

问题定义:本文旨在解决如何评估LLM自解释的有效性问题,即这些解释是否真的能帮助用户理解和预测模型的行为。现有方法主要关注解释与模型决策的一致性,但忽略了用户利用解释预测模型在不同情境下行为的能力。因此,本文关注的是解释在反事实情境下的可模拟性,即用户能否根据解释预测模型在问题发生变化时的行为。

核心思路:本文的核心思路是通过反事实模拟来评估LLM自解释的有效性。具体来说,给定一个问题和模型的回答,以及模型的自解释,用户需要预测模型在问题发生细微变化(即反事实问题)时的回答。如果用户能够根据解释更准确地预测模型在反事实情境下的行为,则说明该解释是有效的。

技术框架:本文的整体框架包括以下几个步骤:1) 选择数据集(StrategyQA);2) 获取LLM对原始问题的回答和自解释;3) 生成反事实问题,采用两种方法:LLM生成和基于语用学的扰动;4) 让LLM和人类作为判断者,预测LLM对反事实问题的回答,有或没有自解释;5) 评估判断者的预测准确性。

关键创新:本文的关键创新在于:1) 提出了一种新的评估LLM自解释有效性的方法,即反事实模拟;2) 比较了两种生成反事实问题的方法:LLM生成和基于语用学的扰动,后者更注重问题的细微变化;3) 同时评估了LLM和人类作为判断者的预测能力,考察了自解释对不同类型用户的帮助。

关键设计:在生成反事实问题时,基于语用学的扰动方法通过修改问题中的关键词或短语,生成与原始问题语义相关的细微变化。例如,将“谁赢得了2020年美国总统大选?”改为“谁是2020年美国总统大选的候选人?”。在评估判断者的预测准确性时,使用准确率作为评估指标,并分析了不同扰动策略和判断者能力对结果的影响。

📊 实验亮点

实验结果表明,LLM自解释能够提高人类和LLM判断者预测模型行为的准确性。具体来说,在StrategyQA数据集上,自解释能够使人类和LLM判断者的预测准确率平均提高5%-10%。此外,基于语用学的扰动生成的反事实问题更能有效区分不同解释的质量,也更能体现自解释对用户预测能力的提升。

🎯 应用场景

该研究成果可应用于提升LLM的可解释性和可信度,帮助用户更好地理解和信任LLM的决策。通过评估和改进LLM的自解释能力,可以提高LLM在医疗诊断、金融风控等领域的应用效果,减少因模型误判带来的风险。此外,该研究也为开发更有效的LLM解释方法提供了新的思路。

📄 摘要(原文)

Large Language Models (LLMs) can produce verbalized self-explanations, yet prior studies suggest that such rationales may not reliably reflect the model's true decision process. We ask whether these explanations nevertheless help users predict model behavior, operationalized as counterfactual simulatability. Using StrategyQA, we evaluate how well humans and LLM judges can predict a model's answers to counterfactual follow-up questions, with and without access to the model's chain-of-thought or post-hoc explanations. We compare LLM-generated counterfactuals with pragmatics-based perturbations as alternative ways to construct test cases for assessing the potential usefulness of explanations. Our results show that self-explanations consistently improve simulation accuracy for both LLM judges and humans, but the degree and stability of gains depend strongly on the perturbation strategy and judge strength. We also conduct a qualitative analysis of free-text justifications written by human users when predicting the model's behavior, which provides evidence that access to explanations helps humans form more accurate predictions on the perturbed questions.