BatchEval: Towards Human-like Text Evaluation

作者: Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Boyuan Pan, Heda Wang, Kan Li

分类: cs.CL

发布日期: 2023-12-31

备注: 19 pages, 9 figures

💡 一句话要点

提出BatchEval，通过批量评估范式提升大语言模型文本评估能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本评估 大语言模型 批量评估 迭代优化 异构批次

📋 核心要点

现有基于LLM的文本评估方法对提示词敏感，抗噪声能力弱，且静态参考下集成性能不佳。
BatchEval模仿人类评估方式，将标准定义和样本间比较作为参考，采用迭代批量评估范式。
实验表明，BatchEval在Pearson相关性上平均提升10.5%，同时降低了API成本。

📝 摘要（中文）

本文提出BatchEval，一种类人文本评估方法，旨在解决当前基于大语言模型（LLM）的自动文本评估中存在的以下问题：对提示词设计敏感、抗噪声能力差、以及静态参考下的集成性能不佳。BatchEval受到人类评估过程中标准定义和样本间比较的启发，采用迭代的批量评估范式来缓解上述问题。论文探索了该范式下的多种变体，并确定了最佳设置为异构批次组合策略和十进制评分格式的两阶段流程。在4个文本评估任务上，对3个LLM进行了全面实验，结果表明BatchEval优于现有最佳方法，在Pearson相关性上平均提升10.5%，而API成本仅为平均水平的64%。进一步的分析验证了BatchEval的鲁棒性、泛化性和工作机制。

🔬 方法详解

问题定义：当前基于大语言模型的文本评估方法通常采用逐样本评估的模式，这种模式存在三个主要的痛点：一是评估结果对提示词的设计非常敏感，细微的提示词变化可能导致评估结果的显著波动；二是抗噪声能力较差，容易受到输入文本中噪声信息的影响；三是在集成多个评估结果时，如果参考标准是静态的，则集成效果往往不佳。这些问题限制了LLM在文本评估任务中的应用。

核心思路：BatchEval的核心思路是模拟人类进行文本评估的方式。人类在评估文本时，不仅会参考预先定义的评估标准，还会对多个待评估文本进行相互比较，从而更准确地判断每个文本的质量。BatchEval通过将多个文本组成一个批次进行联合评估，使得LLM可以同时参考评估标准和样本间的相对关系，从而提高评估的准确性和鲁棒性。此外，BatchEval采用迭代的评估方式，逐步优化评估结果。

技术框架：BatchEval的整体框架是一个迭代的两阶段流程。第一阶段是批次构建阶段，该阶段根据异构批次组合策略，将不同的待评估文本组合成多个批次。第二阶段是批量评估阶段，该阶段使用LLM对每个批次中的文本进行联合评估，并输出每个文本的评分。整个流程迭代多次，每次迭代都会根据前一次迭代的结果调整批次组合方式，最终得到每个文本的最终评分。

关键创新：BatchEval最重要的技术创新点在于其批量评估的范式。与传统的逐样本评估方法相比，BatchEval可以充分利用样本间的相对信息，从而提高评估的准确性和鲁棒性。此外，BatchEval的迭代评估方式可以逐步优化评估结果，进一步提高评估的性能。

关键设计：BatchEval的关键设计包括：1) 异构批次组合策略：该策略旨在构建包含不同质量水平文本的批次，从而使得LLM可以更好地进行样本间比较。2) 十进制评分格式：实验表明，使用十进制评分格式可以提高评估的精度。3) 两阶段迭代流程：该流程可以逐步优化评估结果，提高评估的性能。具体迭代次数需要根据实际情况进行调整。

📊 实验亮点

实验结果表明，BatchEval在四个文本评估任务上均取得了显著的性能提升。具体而言，BatchEval在Pearson相关性上平均提升了10.5%，并且API成本仅为现有最佳方法的64%。这些结果表明，BatchEval是一种高效且准确的文本评估方法。

🎯 应用场景

BatchEval可广泛应用于各种文本评估场景，例如机器翻译质量评估、文本摘要质量评估、对话生成质量评估等。该方法能够提升评估的准确性和鲁棒性，降低API成本，具有重要的实际应用价值。未来，BatchEval可以进一步扩展到其他类型的评估任务，例如图像质量评估、视频质量评估等。

📄 摘要（原文）

Significant progress has been made in automatic text evaluation with the introduction of large language models (LLMs) as evaluators. However, current sample-wise evaluation paradigm suffers from the following issues: (1) Sensitive to prompt design; (2) Poor resistance to noise; (3) Inferior ensemble performance with static reference. Inspired by the fact that humans treat both criterion definition and inter sample comparison as references for evaluation, we propose BatchEval, a paradigm that conducts batch-wise evaluation iteratively to alleviate the above problems. We explore variants under this paradigm and confirm the optimal settings are two stage procedure with heterogeneous batch composition strategy and decimal scoring format. Comprehensive experiments across 3 LLMs on 4 text evaluation tasks demonstrate that BatchEval outperforms state-of-the-art methods by 10.5% on Pearson correlations with only 64% API cost on average. Further analyses have been conducted to verify the robustness, generalization, and working mechanism of BatchEval.

BatchEval: Towards Human-like Text Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册