Wisdom of the AI Crowd (AI-CROWD) for Ground Truth Approximation in Content Analysis: A Research Protocol & Validation Using Eleven Large Language Models
作者: Luis de-Marcos, Manuel Goyanes, Adrián Domínguez-Díaz
分类: cs.CL
发布日期: 2026-03-06
💡 一句话要点
提出AI-CROWD协议,利用LLM集成输出近似内容分析的真值标准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 内容分析 真值标准 群体智慧 共识机制
📋 核心要点
- 大规模内容分析面临缺乏真值标准的挑战,人工标注成本高昂且难以保证一致性。
- AI-CROWD协议通过集成多个LLM的输出,利用共识机制近似真值标准,降低标注成本。
- 该协议通过多数投票聚合结果,并分析模型间的一致性,识别高置信度分类并标记潜在偏差。
📝 摘要(中文)
大规模内容分析日益受到缺乏可观察的真值标准或金标准标签的限制,因为通过大量人工编码创建此类基准对于海量数据集而言,由于高时间成本和一致性挑战变得不切实际。为了克服这一障碍,我们引入了AI-CROWD协议,该协议通过利用大型语言模型(LLM)集合的集体输出来近似真值标准。该协议并非断言生成的标签是真正的真值,而是生成基于共识的近似值,该近似值来自多个模型之间的收敛和发散推断。通过多数投票聚合输出,并使用诊断指标询问一致性/不一致性模式,AI-CROWD识别高置信度的分类,同时标记潜在的模糊性或模型特定的偏差。
🔬 方法详解
问题定义:大规模内容分析任务中,获取高质量的真值标签(ground truth)非常困难。传统的人工标注方法耗时耗力,且难以保证标注的一致性和客观性,尤其是在处理海量数据时,这一问题更加突出。现有方法难以有效应对大规模内容分析对真值标签的需求。
核心思路:该论文的核心思路是利用多个大型语言模型(LLMs)的集体智慧,通过集成它们的输出结果来近似真值标签。作者认为,虽然单个LLM可能存在偏差或错误,但通过综合多个LLM的判断,可以降低误差,提高结果的可靠性。这种方法类似于“群体智慧”的概念,即多个个体的判断结果通常比单个个体的判断更准确。
技术框架:AI-CROWD协议主要包含以下几个阶段:1. 数据准备:准备需要进行内容分析的数据集。2. 模型选择:选择多个具有代表性的LLM。3. 模型推理:使用每个LLM对数据集进行推理,得到各自的输出结果。4. 结果聚合:使用多数投票等方法,将多个LLM的输出结果进行聚合,得到最终的预测结果。5. 诊断分析:分析LLM之间的一致性和差异性,识别潜在的偏差和不确定性。
关键创新:该论文的关键创新在于提出了AI-CROWD协议,将多个LLM的输出结果进行集成,以近似真值标签。与传统的单一模型或人工标注方法相比,AI-CROWD协议具有更高的效率和可扩展性,并且能够降低标注成本。此外,该协议还能够识别潜在的偏差和不确定性,提高结果的可靠性。
关键设计:在结果聚合阶段,作者采用了多数投票的方法,即选择出现次数最多的标签作为最终的预测结果。此外,作者还设计了一系列诊断指标,用于分析LLM之间的一致性和差异性。例如,作者计算了每个LLM的准确率、召回率和F1值,以及LLM之间的Cohen's Kappa系数,用于评估它们之间的一致性程度。这些指标可以帮助用户识别潜在的偏差和不确定性,并对结果进行进一步的分析和验证。
📊 实验亮点
论文使用11个大型语言模型验证了AI-CROWD协议的有效性。通过多数投票聚合模型输出,该协议能够以较低成本近似真值标准,并识别高置信度的分类结果。实验结果表明,AI-CROWD协议在内容分析任务中具有良好的性能和可扩展性。
🎯 应用场景
AI-CROWD协议可应用于各种大规模内容分析场景,例如社交媒体情感分析、新闻事件分类、舆情监控等。该方法能够降低标注成本,提高分析效率,并为研究人员提供更可靠的真值标准,从而促进相关领域的研究进展。未来,该方法有望应用于更多需要大规模数据标注的领域。
📄 摘要(原文)
Large-scale content analysis is increasingly limited by the absence of observable ground truth or gold-standard labels, as creating such benchmarks through extensive human coding becomes impractical for massive datasets due to high time, cost, and consistency challenges. To overcome this barrier, we introduce the AI-CROWD protocol, which approximates ground truth by leveraging the collective outputs of an ensemble of large language models (LLMs). Rather than asserting that the resulting labels are true ground truth, the protocol generates a consensus-based approximation derived from convergent and divergent inferences across multiple models. By aggregating outputs via majority voting and interrogating agreement/disagreement patterns with diagnostic metrics, AI-CROWD identifies high-confidence classifications while flagging potential ambiguity or model-specific biases.