ChatGPT as a commenter to the news: can LLMs generate human-like opinions?
作者: Rayden Tseng, Suzan Verberne, Peter van der Putten
分类: cs.CL, cs.CY
发布日期: 2023-12-21
备注: Published as Tseng, R., Verberne, S., van der Putten, P. (2023). ChatGPT as a Commenter to the News: Can LLMs Generate Human-Like Opinions?. In: Ceolin, D., Caselli, T., Tulin, M. (eds) Disinformation in Open Online Media. MISDOOM 2023. Lecture Notes in Computer Science, vol 14397. Springer, Cham
DOI: 10.1007/978-3-031-47896-3_12
💡 一句话要点
评估ChatGPT生成类人新闻评论的能力:区分机器与人类评论仍具挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 新闻评论生成 类人文本生成 提示工程 BERT分类器
📋 核心要点
- 大型语言模型(LLMs)在生成文本方面表现出色,但其生成类人评论的能力仍待考量。
- 研究采用多种提示技术,并让人工智能模拟不同人设,以期生成更具人类特征的评论。
- 实验结果表明,现有模型仍能有效区分机器与人类评论,词汇多样性是关键区分因素。
📝 摘要(中文)
本研究旨在评估GPT-3.5生成荷兰新闻文章评论的类人程度。类人程度被定义为“与人类评论无法区分”,并通过自动分类器区分人类评论和GPT评论的难度来近似衡量。研究分析了多种提示技术(包括零样本、少样本和上下文提示)对生成评论类人程度的影响,并针对两种不同的人设进行了实验。结果表明,经过微调的BERT模型能够轻松区分人类撰写的评论和GPT-3.5生成的评论,且不同的提示方法没有显著差异。进一步分析表明,人类评论始终表现出比GPT生成的评论更高的词汇多样性。这表明,尽管生成式LLM可以生成流畅的文本,但其创建类人观点评论的能力仍然有限。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLMs),特别是GPT-3.5,生成新闻评论的类人程度。现有方法难以生成与人类评论无法区分的文本,导致机器生成的评论容易被识别,缺乏真实性和说服力。
核心思路:论文的核心思路是通过多种提示技术(零样本、少样本、上下文提示)和模拟不同人设,来提升GPT-3.5生成评论的类人程度。通过比较不同提示方法和人设下生成的评论与人类评论的差异,评估LLM在生成类人观点方面的能力。
技术框架:研究的技术框架主要包括以下几个阶段:1) 使用GPT-3.5生成评论,采用不同的提示技术和人设;2) 构建二元分类器(基于微调的BERT模型),用于区分人类评论和GPT生成的评论;3) 分析分类器的性能,评估不同提示方法和人设对生成评论类人程度的影响;4) 比较人类评论和GPT生成评论的词汇多样性,进一步分析差异。
关键创新:论文的关键创新在于系统性地评估了多种提示技术和人设对LLM生成类人评论的影响。通过构建分类器和分析词汇多样性,量化了LLM生成评论与人类评论的差异,为提升LLM生成类人文本的能力提供了新的视角。
关键设计:研究的关键设计包括:1) 选择了GPT-3.5作为生成评论的模型;2) 采用了零样本、少样本和上下文提示等多种提示技术;3) 模拟了两种不同的人设;4) 使用微调的BERT模型作为分类器,区分人类评论和GPT生成的评论;5) 使用词汇多样性作为评估指标,量化了人类评论和GPT生成评论的差异。
📊 实验亮点
实验结果表明,即使采用多种提示技术和人设模拟,微调的BERT模型仍然能够有效区分GPT-3.5生成的评论和人类评论。人类评论的词汇多样性始终高于GPT生成的评论,表明LLM在生成具有丰富表达和个性化观点的评论方面仍存在局限性。最佳的提示方法并没有显著优于其他方法。
🎯 应用场景
该研究成果可应用于提升聊天机器人、社交媒体评论生成等领域中人工智能生成内容的真实性和可信度。通过理解LLM生成类人文本的局限性,可以指导模型改进,使其能够生成更自然、更具说服力的内容,从而减少信息误导和提高用户体验。未来,该研究可扩展到其他语言和文化背景,进一步提升LLM的跨文化交流能力。
📄 摘要(原文)
ChatGPT, GPT-3.5, and other large language models (LLMs) have drawn significant attention since their release, and the abilities of these models have been investigated for a wide variety of tasks. In this research we investigate to what extent GPT-3.5 can generate human-like comments on Dutch news articles. We define human likeness as `not distinguishable from human comments', approximated by the difficulty of automatic classification between human and GPT comments. We analyze human likeness across multiple prompting techniques. In particular, we utilize zero-shot, few-shot and context prompts, for two generated personas. We found that our fine-tuned BERT models can easily distinguish human-written comments from GPT-3.5 generated comments, with none of the used prompting methods performing noticeably better. We further analyzed that human comments consistently showed higher lexical diversity than GPT-generated comments. This indicates that although generative LLMs can generate fluent text, their capability to create human-like opinionated comments is still limited.