CoAScore: Chain-of-Aspects Prompting for NLG Evaluation

📄 arXiv: 2312.10355v1 📥 PDF

作者: Peiyuan Gong, Jiaxin Mao

分类: cs.CL

发布日期: 2023-12-16


💡 一句话要点

提出CoAScore,利用链式方面提示提升NLG评估与人类判断的相关性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自然语言生成评估 大型语言模型 链式方面提示 多方面评估 自动评估指标

📋 核心要点

  1. 现有NLG评估方法忽略了各方面之间丰富的关联,导致评估结果不够准确。
  2. CoAScore通过链式方面提示,利用LLM生成相关方面链,从而提升评估的准确性。
  3. 实验表明,CoAScore与人类判断的相关性显著高于现有无监督评估指标。

📝 摘要(中文)

近年来,自然语言生成(NLG)的评估已从单方面转向多方面,从而实现更准确的评估。大型语言模型(LLM)在各种NLG评估任务中表现出色。然而,目前的工作通常采用LLM独立评估不同方面,这在很大程度上忽略了各个方面之间丰富的相关性。为了填补这一研究空白,本文提出了一种名为CoAScore的NLG评估指标。CoAScore由LLM驱动,在评估特定方面的质量时,通过CoA(方面链)提示框架利用多方面知识。具体来说,对于给定的待评估方面,我们首先提示LLM生成与目标方面相关且对评估有用的方面链。然后,我们收集每个生成方面的评估分数,最后,利用这些方面的知识来改进目标方面的评估。我们在五个NLG评估任务(例如,摘要、对话响应生成等)和九个方面(例如,整体质量、相关性、连贯性等)上评估了CoAScore。实验结果表明,与单独的方面评估相比,CoAScore与人类判断具有更高的相关性。这种改进明显优于现有的无监督评估指标,无论是评估整体质量还是其他方面。我们还进行了广泛的消融研究,以验证CoAScore框架内三个阶段的有效性,并进行了案例研究,以展示LLM在这些阶段中的表现。我们的代码和脚本是可用的。

🔬 方法详解

问题定义:论文旨在解决自然语言生成(NLG)评估中,现有方法忽略各评估方面之间关联的问题。现有方法通常独立评估各个方面(如相关性、连贯性等),未能充分利用它们之间的相互影响,导致评估结果与人类判断存在偏差。

核心思路:论文的核心思路是利用大型语言模型(LLM)的知识推理能力,通过“链式方面”(Chain-of-Aspects, CoA)提示,让LLM在评估目标方面之前,先生成一系列与之相关的方面。这些相关方面的信息可以帮助LLM更全面、更准确地评估目标方面。这样设计的目的是模拟人类评估过程,即综合考虑多个因素后再做出判断。

技术框架:CoAScore的整体框架包含三个主要阶段: 1. 方面链生成(Aspect Chain Generation):给定一个待评估的方面,使用LLM生成一个与该方面相关的方面链。例如,如果待评估方面是“相关性”,LLM可能会生成“信息量”、“真实性”等相关方面。 2. 方面评估(Aspect Evaluation):对生成的方面链中的每个方面进行评估,得到相应的评估分数。可以使用现有的NLG评估指标或LLM直接进行评估。 3. 目标方面评估(Target Aspect Evaluation):利用方面链中各个方面的评估分数,来改进目标方面的评估。可以使用加权平均、回归模型等方法将这些分数进行融合。

关键创新:CoAScore的关键创新在于提出了“链式方面”提示框架,将多个相关方面的信息融入到目标方面的评估中。与现有方法相比,CoAScore能够更好地捕捉各个方面之间的关联,从而提高评估的准确性。本质区别在于,CoAScore不是孤立地评估每个方面,而是将它们视为一个相互关联的整体。

关键设计: * LLM选择:论文中使用了特定的LLM(具体型号未知)作为评估引擎。LLM的性能直接影响CoAScore的评估效果。 * 提示工程(Prompt Engineering):方面链生成阶段的提示语设计至关重要。需要设计合适的提示语,引导LLM生成高质量的方面链。 * 方面评估方法:可以使用不同的方法对方面链中的每个方面进行评估,例如,可以使用现有的NLG评估指标(如ROUGE、BLEU等),也可以使用LLM直接进行评估。 * 分数融合方法:可以使用不同的方法将方面链中各个方面的评估分数融合到目标方面的评估中,例如,可以使用加权平均、回归模型等。

📊 实验亮点

实验结果表明,CoAScore在多个NLG评估任务和多个评估方面上,都显著优于现有的无监督评估指标。与单独的方面评估相比,CoAScore与人类判断的相关性更高,表明其能够更准确地反映人类对NLG质量的认知。具体的性能提升数据在论文中给出(未知)。

🎯 应用场景

CoAScore可应用于各种自然语言生成任务的自动评估,例如机器翻译、文本摘要、对话生成等。它能够更准确地衡量生成文本的质量,帮助研究人员和开发者改进NLG模型。此外,CoAScore还可以用于评估不同NLG系统的性能,为选择合适的系统提供依据。未来,CoAScore有望成为NLG领域重要的评估工具。

📄 摘要(原文)

Recently, natural language generation (NLG) evaluation has shifted from a single-aspect to a multi-aspect paradigm, allowing for a more accurate assessment. Large language models (LLMs) achieve superior performance on various NLG evaluation tasks. However, current work often employs the LLM to independently evaluate different aspects, which largely ignores the rich correlation between various aspects. To fill this research gap, in this work, we propose an NLG evaluation metric called CoAScore. Powered by LLMs, the CoAScore utilizes multi-aspect knowledge through a CoA (\textbf{C}hain-\textbf{o}f-\textbf{A}spects) prompting framework when assessing the quality of a certain aspect. Specifically, for a given aspect to evaluate, we first prompt the LLM to generate a chain of aspects that are relevant to the target aspect and could be useful for the evaluation. We then collect evaluation scores for each generated aspect, and finally, leverage the knowledge of these aspects to improve the evaluation of the target aspect. We evaluate CoAScore across five NLG evaluation tasks (e.g., summarization, dialog response generation, etc) and nine aspects (e.g., overall quality, relevance, coherence, etc). Our experimental findings highlight that, in comparison to individual aspect evaluation, CoAScore exhibits a higher correlation with human judgments. This improvement significantly outperforms existing unsupervised evaluation metrics, whether for assessing overall quality or other aspects. We also conducted extensive ablation studies to validate the effectiveness of the three stages within the CoAScore framework and conducted case studies to show how the LLM performs in these stages. Our code and scripts are available.