From XAI to Stories: A Factorial Study of LLM-Generated Explanation Quality

📄 arXiv: 2601.02224v1 📥 PDF

作者: Fabian Lukassen, Jan Herrmann, Christoph Weisser, Benjamin Saefken, Thomas Kneib

分类: cs.CL

发布日期: 2026-01-05


💡 一句话要点

系统性研究LLM生成解释质量的影响因素,揭示XAI在时间序列预测中的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释AI 大语言模型 自然语言解释 时间序列预测 析因实验 LLM评估 提示工程

📋 核心要点

  1. 现有XAI方法生成的特征归因数值对非专业用户不友好,难以理解,需要转化为自然语言解释。
  2. 该研究通过析因实验设计,系统性地研究了模型选择、XAI方法、LLM选择和提示策略对NLE质量的影响。
  3. 实验结果表明,LLM的选择是影响NLE质量的最关键因素,DeepSeek-R1表现最佳,且XAI的提升效果有限。

📝 摘要(中文)

本文系统性地研究了影响大语言模型(LLM)生成高质量自然语言解释(NLE)的因素。该研究采用析因设计,考察了预测模型选择(XGBoost、随机森林、多层感知机、SARIMAX)、可解释AI(XAI)方法(SHAP、LIME、无XAI基线)、LLM选择(GPT-4o、Llama-3-8B、DeepSeek-R1)以及提示策略对NLE质量的影响。使用基于LLM作为评判者的G-Eval方法,通过双LLM评判和四个评估标准,评估了660个时间序列预测的解释。结果表明:(1)XAI仅为专家受众提供少量改进;(2)LLM选择是主导因素,DeepSeek-R1优于GPT-4o和Llama-3;(3)观察到可解释性悖论:SARIMAX的预测精度更高,但NLE质量低于ML模型;(4)零样本提示与自洽性提示效果相当,但成本降低7倍;(5)思维链提示反而有害。

🔬 方法详解

问题定义:现有XAI方法(如SHAP和LIME)产生的特征归因结果通常是数值形式,对于非专业用户来说难以理解和应用。因此,如何将这些数值结果转化为易于理解的自然语言解释(NLE)是一个重要的问题。此外,现有方法在将XAI结果转化为NLE时,缺乏对影响NLE质量的关键因素的系统性研究。

核心思路:该研究的核心思路是通过一个全面的析因实验设计,系统性地评估不同因素(包括预测模型、XAI方法、LLM选择和提示策略)对NLE质量的影响。通过控制这些因素的不同水平,并使用LLM作为评判者来评估生成的NLE,从而确定哪些因素对NLE质量具有显著影响。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择时间序列预测模型(XGBoost, Random Forest, MLP, SARIMAX);2) 应用不同的XAI方法(SHAP, LIME, 无XAI);3) 使用不同的LLM(GPT-4o, Llama-3-8B, DeepSeek-R1)将XAI结果转化为NLE;4) 采用不同的提示策略;5) 使用G-Eval方法,通过双LLM评判和四个评估标准(未知)来评估NLE的质量。

关键创新:该研究的关键创新在于其系统性的析因实验设计,能够同时评估多个因素对NLE质量的影响,从而揭示了不同因素之间的相互作用。此外,该研究还发现了一些反直觉的结果,例如XAI的提升效果有限,以及SARIMAX模型的可解释性悖论。

关键设计:该研究的关键设计包括:1) 选择了四种不同的时间序列预测模型,包括黑盒机器学习模型和经典时间序列模型;2) 选择了三种常用的XAI方法,以及一个无XAI的基线;3) 选择了三种不同的LLM,代表了不同规模和架构的模型;4) 设计了八种不同的提示策略,以探索不同的提示方式对NLE质量的影响;5) 使用G-Eval方法,通过双LLM评判和四个评估标准来评估NLE的质量,保证了评估的客观性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM的选择对NLE质量的影响最大,DeepSeek-R1的表现优于GPT-4o和Llama-3。令人惊讶的是,XAI方法的提升效果有限,尤其是在非专家受众中。此外,研究还发现SARIMAX模型虽然预测精度高,但生成的NLE质量反而较低,揭示了可解释性悖论。零样本提示策略在成本大幅降低的情况下,表现与自洽性提示策略相当。

🎯 应用场景

该研究成果可应用于各种需要可解释AI的领域,例如金融风险评估、医疗诊断、智能制造等。通过优化LLM生成的解释,可以提高用户对AI决策的信任度,促进AI技术的广泛应用。此外,该研究也为LLM在XAI领域的应用提供了指导,有助于开发更有效、更经济的NLE生成方法。

📄 摘要(原文)

Explainable AI (XAI) methods like SHAP and LIME produce numerical feature attributions that remain inaccessible to non expert users. Prior work has shown that Large Language Models (LLMs) can transform these outputs into natural language explanations (NLEs), but it remains unclear which factors contribute to high-quality explanations. We present a systematic factorial study investigating how Forecasting model choice, XAI method, LLM selection, and prompting strategy affect NLE quality. Our design spans four models (XGBoost (XGB), Random Forest (RF), Multilayer Perceptron (MLP), and SARIMAX - comparing black-box Machine-Learning (ML) against classical time-series approaches), three XAI conditions (SHAP, LIME, and a no-XAI baseline), three LLMs (GPT-4o, Llama-3-8B, DeepSeek-R1), and eight prompting strategies. Using G-Eval, an LLM-as-a-judge evaluation method, with dual LLM judges and four evaluation criteria, we evaluate 660 explanations for time-series forecasting. Our results suggest that: (1) XAI provides only small improvements over no-XAI baselines, and only for expert audiences; (2) LLM choice dominates all other factors, with DeepSeek-R1 outperforming GPT-4o and Llama-3; (3) we observe an interpretability paradox: in our setting, SARIMAX yielded lower NLE quality than ML models despite higher prediction accuracy; (4) zero-shot prompting is competitive with self-consistency at 7-times lower cost; and (5) chain-of-thought hurts rather than helps.