LLM-as-a-Judge for Time Series Explanations

📄 arXiv: 2604.02118v1 📥 PDF

作者: Preetham Sivalingam, Murari Mandal, Saurabh Deshpande, Dhruv Kumar

分类: cs.AI, cs.CL

发布日期: 2026-04-02

备注: Under Review


💡 一句话要点

提出基于LLM的无参考时间序列解释评估方法,解决现有评估方法依赖参考解释的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时间序列分析 可解释性AI 大型语言模型 无参考评估 异常检测

📋 核心要点

  1. 现有时间序列解释评估方法依赖于参考解释或特定任务规则,缺乏通用性和灵活性。
  2. 利用LLM作为评估器,通过模式识别、数值准确性和答案忠实性对时间序列解释进行三元分类。
  3. 实验表明,LLM在解释评估方面表现稳定,即使生成结果不佳也能进行有效排序和评分。

📝 摘要(中文)

评估大型语言模型(LLM)生成的时间序列数据解释的事实正确性仍然是一个开放的挑战。虽然现代模型可以生成数值信号的文本解释,但现有的评估方法存在局限性:基于参考的相似性度量和一致性检查模型需要ground truth解释,而传统的时间序列方法纯粹基于数值,无法评估自由形式的文本推理。因此,目前没有通用的方法可以直接验证解释是否忠实于底层时间序列数据,而无需预定义的参考或特定于任务的规则。本文研究了大型语言模型作为时间序列解释的生成器和评估器,在无参考设置下,给定一个时间序列、问题和候选解释,评估器根据模式识别、数值准确性和答案忠实性分配一个三元正确性标签,从而实现有原则的评分和比较。为此,我们构建了一个包含350个时间序列案例的合成基准,涵盖七种查询类型,每种查询类型都配有正确、部分正确和不正确的解释。我们评估了模型在四个任务中的表现:解释生成、相对排序、独立评分和多异常检测。结果表明存在明显的非对称性:生成高度依赖于模式,并且在某些查询类型上表现出系统性失败,而评估则更加稳定,即使模型自身的输出不正确,也能正确地对解释进行排序和评分。这些发现证明了基于数据驱动的LLM评估时间序列解释的可行性,并强调了它们作为时间序列领域中数据驱动推理的可靠评估者的潜力。

🔬 方法详解

问题定义:现有时间序列解释评估方法主要依赖于参考解释(reference-based)或特定任务规则,这限制了其通用性和灵活性。Reference-based方法需要预先定义好的标准答案,而实际应用中往往难以获取。传统时间序列方法则无法处理自由形式的文本解释,无法评估LLM生成的解释的质量。因此,需要一种无需参考解释,能够直接评估LLM生成的时间序列解释的忠实性的方法。

核心思路:本文的核心思路是利用LLM自身的能力,将其作为时间序列解释的评估器。LLM具备强大的模式识别、数值推理和文本理解能力,可以判断给定的解释是否符合时间序列数据的特征,是否在数值上准确,以及是否忠实地回答了提出的问题。通过训练LLM进行三元分类(正确、部分正确、不正确),可以实现对时间序列解释的自动评估。

技术框架:整体框架包含以下几个主要步骤:1) 构建合成时间序列数据集,包含不同类型的查询和对应的解释(正确、部分正确、不正确);2) 使用该数据集训练LLM,使其能够根据时间序列、问题和解释,输出三元正确性标签;3) 将训练好的LLM作为评估器,对新的时间序列解释进行评估。该框架支持多种任务,包括解释生成、相对排序、独立评分和多异常检测。

关键创新:最重要的创新点在于将LLM应用于时间序列解释的无参考评估。与传统方法相比,该方法无需预定义的参考解释,能够直接评估LLM生成的自由形式的文本解释。此外,该方法还利用了LLM的强大推理能力,可以综合考虑时间序列的模式、数值准确性和答案忠实性,从而进行更全面的评估。

关键设计:在数据集构建方面,论文设计了七种不同的查询类型,涵盖了时间序列分析中常见的模式,如结构性断裂、季节性下降和波动性变化。对于每种查询类型,都生成了正确、部分正确和不正确的解释,以训练LLM进行三元分类。在模型训练方面,使用了标准的交叉熵损失函数,并对LLM进行了微调,以提高其在时间序列解释评估任务上的性能。具体使用的LLM模型信息未知。

📊 实验亮点

实验结果表明,LLM在时间序列解释评估方面表现出色,尤其是在相对排序和独立评分任务中。即使LLM自身生成的解释不正确,也能正确地对其他解释进行排序和评分。在解释生成任务中,LLM的准确率在不同查询类型之间存在差异,对于结构性断裂等模式的识别效果较好(准确率高达0.94-0.96),而对于季节性下降和波动性变化等模式的识别效果较差(准确率低至0.00-0.12)。

🎯 应用场景

该研究成果可应用于各种需要时间序列数据解释的领域,如金融分析、工业监控、医疗诊断等。例如,可以利用该方法自动评估LLM生成的投资建议的合理性,或者评估工业设备故障诊断报告的准确性。该方法还有助于提高时间序列分析的可解释性和可信度,促进人机协作。

📄 摘要(原文)

Evaluating factual correctness of LLM generated natural language explanations grounded in time series data remains an open challenge. Although modern models generate textual interpretations of numerical signals, existing evaluation methods are limited: reference based similarity metrics and consistency checking models require ground truth explanations, while traditional time series methods operate purely on numerical values and cannot assess free form textual reasoning. Thus, no general purpose method exists to directly verify whether an explanation is faithful to underlying time series data without predefined references or task specific rules. We study large language models as both generators and evaluators of time series explanations in a reference free setting, where given a time series, question, and candidate explanation, the evaluator assigns a ternary correctness label based on pattern identification, numeric accuracy, and answer faithfulness, enabling principled scoring and comparison. To support this, we construct a synthetic benchmark of 350 time series cases across seven query types, each paired with correct, partially correct, and incorrect explanations. We evaluate models across four tasks: explanation generation, relative ranking, independent scoring, and multi anomaly detection. Results show a clear asymmetry: generation is highly pattern dependent and exhibits systematic failures on certain query types, with accuracies ranging from 0.00 to 0.12 for Seasonal Drop and Volatility Shift, to 0.94 to 0.96 for Structural Break, while evaluation is more stable, with models correctly ranking and scoring explanations even when their own outputs are incorrect. These findings demonstrate feasibility of data grounded LLM based evaluation for time series explanations and highlight their potential as reliable evaluators of data grounded reasoning in the time series domain.