Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-Judge

📄 arXiv: 2506.00777v1 📥 PDF

作者: Md Tahmid Rahman Laskar, Israt Jahan, Elham Dolatabadi, Chun Peng, Enamul Hoque, Jimmy Huang

分类: cs.CL

发布日期: 2025-06-01

备注: Accepted at ACL 2025 (Main Conference)

🔗 代码/项目: GITHUB


💡 一句话要点

提出LLMs作为评判者以改善生物医学关系提取的自动评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物医学关系提取 大型语言模型 自动评估 结构化输出 领域适应技术 评判者模型 数据集

📋 核心要点

  1. 现有的生物医学关系提取评估方法面临挑战,传统自动评估指标因LLMs生成的多样性而不可靠。
  2. 论文提出将LLMs作为评判者,通过结构化输出格式和领域适应技术来提升评估准确性。
  3. 实验结果显示,经过改进后,LLM评判者的性能平均提升约15%,并公开了36k样本的评判数据供研究使用。

📝 摘要(中文)

大型语言模型(LLMs)在生物医学关系提取中表现出色,尤其在零样本场景下。然而,由于LLMs生成的文本与标准答案之间的同义词或缩写问题,传统的自动评估指标变得不可靠。尽管人工评估更为准确,但其成本高且耗时,难以在实际应用中广泛使用。本文探讨了将LLMs作为评判者的替代评估方法,基于8个LLMs对5个其他LLMs在3个生物医学关系提取数据集上的响应进行评估。研究发现,LLM评判者在该任务中的表现通常低于50%的准确率,主要原因在于提取的关系不符合标准格式。为此,提出了结构化输出格式以提升评判者性能,并引入领域适应技术以进一步增强评判者的表现。

🔬 方法详解

问题定义:本文旨在解决生物医学关系提取中LLMs评估的准确性问题,现有方法因LLMs生成的多样性和不规范性而难以评估其性能。

核心思路:通过引入LLMs作为评判者,并对生成的响应进行结构化输出格式化,提升评判者的评估能力,同时应用领域适应技术以增强跨数据集的知识转移。

技术框架:整体框架包括两个主要模块:一是LLMs生成的关系提取响应,二是LLMs作为评判者进行评估。评判者通过结构化格式化的输入来提高评估的准确性。

关键创新:最重要的创新在于提出了结构化输出格式,显著提升了LLM评判者的性能,解决了传统评估方法的局限性。

关键设计:在参数设置上,采用了适合生物医学领域的特定格式,并设计了适应性损失函数以优化评判者的学习过程。

📊 实验亮点

实验结果表明,LLMs作为评判者的准确率通常低于50%,但通过结构化输出格式的引入,评判者的性能平均提升约15%。此外,研究还提供了36k样本的评判数据,供后续研究使用。

🎯 应用场景

该研究的潜在应用领域包括生物医学信息提取、临床数据分析和药物发现等。通过提升LLMs在关系提取任务中的评估能力,可以加速生物医学研究的进展,降低人工评估的成本,提高数据处理的效率。

📄 摘要(原文)

Large Language Models (LLMs) have demonstrated impressive performance in biomedical relation extraction, even in zero-shot scenarios. However, evaluating LLMs in this task remains challenging due to their ability to generate human-like text, often producing synonyms or abbreviations of gold-standard answers, making traditional automatic evaluation metrics unreliable. On the other hand, while human evaluation is more reliable, it is costly and time-consuming, making it impractical for real-world applications. This paper investigates the use of LLMs-as-the-Judge as an alternative evaluation method for biomedical relation extraction. We benchmark 8 LLMs as judges to evaluate the responses generated by 5 other LLMs across 3 biomedical relation extraction datasets. Unlike other text-generation tasks, we observe that LLM-based judges perform quite poorly (usually below 50% accuracy) in the biomedical relation extraction task. Our findings reveal that it happens mainly because relations extracted by LLMs do not adhere to any standard format. To address this, we propose structured output formatting for LLM-generated responses that helps LLM-Judges to improve their performance by about 15% (on average). We also introduce a domain adaptation technique to further enhance LLM-Judge performance by effectively transferring knowledge between datasets. We release both our human-annotated and LLM-annotated judgment data (36k samples in total) for public use here: https://github.com/tahmedge/llm_judge_biomedical_re.