ChatGPT as a commenter to the news: can LLMs generate human-like opinions?

作者: Rayden Tseng, Suzan Verberne, Peter van der Putten

分类: cs.CL, cs.CY

发布日期: 2023-12-21

备注: Published as Tseng, R., Verberne, S., van der Putten, P. (2023). ChatGPT as a Commenter to the News: Can LLMs Generate Human-Like Opinions?. In: Ceolin, D., Caselli, T., Tulin, M. (eds) Disinformation in Open Online Media. MISDOOM 2023. Lecture Notes in Computer Science, vol 14397. Springer, Cham

DOI: 10.1007/978-3-031-47896-3_12

💡 一句话要点

评估ChatGPT生成类人新闻评论的能力：区分机器与人类评论仍具挑战

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 新闻评论生成 类人文本生成 提示工程 BERT分类器

📋 核心要点

大型语言模型（LLMs）在生成文本方面表现出色，但其生成类人评论的能力仍待考量。
研究采用多种提示技术，并让人工智能模拟不同人设，以期生成更具人类特征的评论。
实验结果表明，现有模型仍能有效区分机器与人类评论，词汇多样性是关键区分因素。

📝 摘要（中文）

本研究旨在评估GPT-3.5生成荷兰新闻文章评论的类人程度。类人程度被定义为“与人类评论无法区分”，并通过自动分类器区分人类评论和GPT评论的难度来近似衡量。研究分析了多种提示技术（包括零样本、少样本和上下文提示）对生成评论类人程度的影响，并针对两种不同的人设进行了实验。结果表明，经过微调的BERT模型能够轻松区分人类撰写的评论和GPT-3.5生成的评论，且不同的提示方法没有显著差异。进一步分析表明，人类评论始终表现出比GPT生成的评论更高的词汇多样性。这表明，尽管生成式LLM可以生成流畅的文本，但其创建类人观点评论的能力仍然有限。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLMs），特别是GPT-3.5，生成新闻评论的类人程度。现有方法难以生成与人类评论无法区分的文本，导致机器生成的评论容易被识别，缺乏真实性和说服力。

核心思路：论文的核心思路是通过多种提示技术（零样本、少样本、上下文提示）和模拟不同人设，来提升GPT-3.5生成评论的类人程度。通过比较不同提示方法和人设下生成的评论与人类评论的差异，评估LLM在生成类人观点方面的能力。

技术框架：研究的技术框架主要包括以下几个阶段：1) 使用GPT-3.5生成评论，采用不同的提示技术和人设；2) 构建二元分类器（基于微调的BERT模型），用于区分人类评论和GPT生成的评论；3) 分析分类器的性能，评估不同提示方法和人设对生成评论类人程度的影响；4) 比较人类评论和GPT生成评论的词汇多样性，进一步分析差异。

关键创新：论文的关键创新在于系统性地评估了多种提示技术和人设对LLM生成类人评论的影响。通过构建分类器和分析词汇多样性，量化了LLM生成评论与人类评论的差异，为提升LLM生成类人文本的能力提供了新的视角。

关键设计：研究的关键设计包括：1) 选择了GPT-3.5作为生成评论的模型；2) 采用了零样本、少样本和上下文提示等多种提示技术；3) 模拟了两种不同的人设；4) 使用微调的BERT模型作为分类器，区分人类评论和GPT生成的评论；5) 使用词汇多样性作为评估指标，量化了人类评论和GPT生成评论的差异。

📊 实验亮点

实验结果表明，即使采用多种提示技术和人设模拟，微调的BERT模型仍然能够有效区分GPT-3.5生成的评论和人类评论。人类评论的词汇多样性始终高于GPT生成的评论，表明LLM在生成具有丰富表达和个性化观点的评论方面仍存在局限性。最佳的提示方法并没有显著优于其他方法。

🎯 应用场景

该研究成果可应用于提升聊天机器人、社交媒体评论生成等领域中人工智能生成内容的真实性和可信度。通过理解LLM生成类人文本的局限性，可以指导模型改进，使其能够生成更自然、更具说服力的内容，从而减少信息误导和提高用户体验。未来，该研究可扩展到其他语言和文化背景，进一步提升LLM的跨文化交流能力。

📄 摘要（原文）

ChatGPT, GPT-3.5, and other large language models (LLMs) have drawn significant attention since their release, and the abilities of these models have been investigated for a wide variety of tasks. In this research we investigate to what extent GPT-3.5 can generate human-like comments on Dutch news articles. We define human likeness as `not distinguishable from human comments', approximated by the difficulty of automatic classification between human and GPT comments. We analyze human likeness across multiple prompting techniques. In particular, we utilize zero-shot, few-shot and context prompts, for two generated personas. We found that our fine-tuned BERT models can easily distinguish human-written comments from GPT-3.5 generated comments, with none of the used prompting methods performing noticeably better. We further analyzed that human comments consistently showed higher lexical diversity than GPT-generated comments. This indicates that although generative LLMs can generate fluent text, their capability to create human-like opinionated comments is still limited.

ChatGPT as a commenter to the news: can LLMs generate human-like opinions?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册