IDEAlign: Comparing Large Language Models to Human Experts in Open-ended Interpretive Annotations

📄 arXiv: 2509.02855v1 📥 PDF

作者: Hyunji Nam, Lucia Langlois, James Malamut, Mei Tan, Dorottya Demszky

分类: cs.CL, cs.CY

发布日期: 2025-09-02

备注: 10 pages, 9 pages for appendix


💡 一句话要点

IDEAlign:通过“奇数挑一”范式,评估LLM在开放式解释性标注任务中与人类专家的对齐程度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 解释性标注 对齐评估 奇数挑一 教育应用

📋 核心要点

  1. 现有方法难以有效评估LLM在开放式解释性标注任务中与人类专家的对齐程度,缺乏可扩展的相似性度量。
  2. 提出IDEAlgin范式,通过“奇数挑一”的三元组判断任务,获取专家相似性评级,作为LLM评估的基准。
  3. 实验表明,IDEAlgin能显著提高LLM与专家判断的对齐度(9-30%),优于传统词汇和向量度量。

📝 摘要(中文)

大型语言模型(LLM)越来越多地应用于开放式、解释性标注任务,例如研究人员进行主题分析或教师对学生作业生成反馈。这些任务涉及自由文本标注,需要基于特定目标(例如,研究问题或教学目标)的专家级判断。大规模评估LLM生成的标注是否与人类专家生成的标注对齐具有挑战性,并且目前不存在经过验证的、可扩展的思想相似性度量方法。在本文中,我们(i)将LLM对解释性标注的可扩展评估作为一项关键且未被充分研究的任务引入,(ii)提出IDEAlgin,一种直观的基准测试范式,通过“奇数挑一”的三元组判断任务来捕获专家相似性评级,以及(iii)针对这些人类基准,评估各种相似性度量,包括基于向量的度量(主题模型、嵌入)和LLM-as-a-judge。将此方法应用于两个真实的教育数据集(解释性分析和反馈生成),我们发现基于向量的度量在很大程度上未能捕捉到对专家有意义的细微相似性维度。与传统的词汇和基于向量的度量相比,通过IDEAlgin提示LLM可以显著提高与专家判断的对齐度(提高9-30%)。这些结果表明,IDEAlgin是一种有前途的范式,用于大规模评估LLM与开放式专家标注的对齐程度,从而为LLM在教育及其他领域的负责任部署提供信息。

🔬 方法详解

问题定义:论文旨在解决如何有效评估大型语言模型(LLM)在开放式解释性标注任务中,与人类专家标注结果的对齐程度的问题。现有方法,如基于词汇或向量相似度的度量,无法捕捉到专家判断中细微的语义和上下文信息,导致评估结果与人类认知存在偏差。此外,大规模评估的成本很高,缺乏可扩展性。

核心思路:论文的核心思路是利用“奇数挑一”(Pick-the-Odd-One-Out)的三元组判断任务,构建一个人类专家相似性评级的基准(IDEAlgin)。通过比较LLM对三元组的判断结果与专家评级,来评估LLM的标注质量和对齐程度。这种方法模拟了人类专家进行比较和判断的过程,更贴近实际应用场景。

技术框架:IDEAlgin的整体框架包括以下几个主要步骤: 1. 数据收集:收集包含开放式解释性标注的数据集,例如学生作业反馈或研究主题分析。 2. 三元组构建:从数据集中选取三个标注,其中两个标注在某种程度上相似,另一个标注则不同。 3. 专家评级:邀请人类专家对三元组进行“奇数挑一”的判断,即选择与其他两个标注最不相似的标注。 4. LLM评估:使用不同的相似性度量方法(包括向量模型和LLM-as-a-judge)对三元组进行判断。 5. 对齐度评估:比较LLM的判断结果与专家评级,计算LLM与专家之间的对齐度。

关键创新:IDEAlgin范式本身是最大的创新点。它提供了一种可扩展、直观且更贴近人类认知的LLM评估方法。与传统的基于词汇或向量相似度的度量相比,IDEAlgin能够更好地捕捉专家判断中的细微语义和上下文信息。此外,论文还探索了使用LLM自身作为评判者(LLM-as-a-judge)的可能性,并发现通过适当的提示工程,LLM可以显著提高与专家判断的对齐度。

关键设计:在三元组构建过程中,需要考虑标注的多样性和难度,以确保专家评级的质量。在LLM评估中,论文尝试了不同的相似性度量方法,包括: * 向量模型:使用主题模型(如LDA)和词嵌入(如Word2Vec、GloVe)计算标注之间的向量相似度。 * LLM-as-a-judge:使用预训练的LLM(如GPT-3)对三元组进行判断,通过提示工程引导LLM模拟专家进行评级。关键在于设计有效的提示语,例如要求LLM解释每个标注的含义,并比较它们之间的差异。

📊 实验亮点

实验结果表明,IDEAlgin范式能够有效评估LLM与人类专家在开放式解释性标注任务中的对齐程度。与传统的词汇和基于向量的度量相比,通过IDEAlgin提示LLM可以显著提高与专家判断的对齐度(提高9-30%)。这表明LLM在经过适当的训练和提示后,可以更好地模拟人类专家的认知过程,并在复杂认知任务中发挥更大的作用。

🎯 应用场景

该研究成果可广泛应用于教育、社会科学、人文学科等领域,用于评估和改进LLM在开放式解释性标注任务中的表现。例如,可以用于评估LLM生成的学生作业反馈的质量,或用于比较不同LLM在主题分析任务中的表现。该研究有助于推动LLM在这些领域的负责任部署,并提高LLM在复杂认知任务中的可靠性。

📄 摘要(原文)

Large language models (LLMs) are increasingly applied to open-ended, interpretive annotation tasks, such as thematic analysis by researchers or generating feedback on student work by teachers. These tasks involve free-text annotations requiring expert-level judgments grounded in specific objectives (e.g., research questions or instructional goals). Evaluating whether LLM-generated annotations align with those generated by expert humans is challenging to do at scale, and currently, no validated, scalable measure of similarity in ideas exists. In this paper, we (i) introduce the scalable evaluation of interpretive annotation by LLMs as a critical and understudied task, (ii) propose IDEAlgin, an intuitive benchmarking paradigm for capturing expert similarity ratings via a "pick-the-odd-one-out" triplet judgment task, and (iii) evaluate various similarity metrics, including vector-based ones (topic models, embeddings) and LLM-as-a-judge via IDEAlgin, against these human benchmarks. Applying this approach to two real-world educational datasets (interpretive analysis and feedback generation), we find that vector-based metrics largely fail to capture the nuanced dimensions of similarity meaningful to experts. Prompting LLMs via IDEAlgin significantly improves alignment with expert judgments (9-30% increase) compared to traditional lexical and vector-based metrics. These results establish IDEAlgin as a promising paradigm for evaluating LLMs against open-ended expert annotations at scale, informing responsible deployment of LLMs in education and beyond.