Benchmarking the Detection of LLMs-Generated Modern Chinese Poetry

作者: Shanshan Wang, Junchao Wu, Fengying Ye, Jingming Yao, Lidia S. Chao, Derek F. Wong

分类: cs.CL, cs.AI

发布日期: 2025-09-01

备注: Accepted by EMNLP 2025

💡 一句话要点

构建现代中文诗歌检测基准，评估现有方法在识别LLM生成诗歌上的局限性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 现代中文诗歌检测 大型语言模型 AI生成文本 基准数据集 文本分类

📋 核心要点

现有AI生成文本检测方法在现代中文诗歌领域效果不佳，因为现代诗歌具有独特的风格和结构。
论文构建了一个包含人类和AI创作的高质量现代中文诗歌数据集，并评估现有检测器的性能。
实验表明，现有检测器难以可靠地识别LLM生成的现代中文诗歌，尤其是在诗歌风格等内在品质方面。

📝 摘要（中文）

随着大型语言模型（LLMs）的快速发展，AI生成的文本与人类创作的文本之间越来越难以区分。虽然之前在检测AI生成文本方面取得了一些进展，但尚未涉及现代中文诗歌。由于现代中文诗歌的独特特征，很难辨别一首诗是出自人类之手还是AI之手。AI生成的现代中文诗歌的泛滥严重扰乱了诗歌生态。鉴于在中国现实世界中识别AI生成诗歌的紧迫性，本文提出了一个新的用于检测LLMs生成的现代中文诗歌的基准。我们首先构建了一个高质量的数据集，其中包括六位专业诗人创作的800首诗歌和四个主流LLMs生成的41600首诗歌。随后，我们对该数据集上的六个检测器进行了系统的性能评估。实验结果表明，当前的检测器不能作为可靠的工具来检测LLMs生成的现代中文诗歌。最难检测的诗歌特征是内在品质，尤其是风格。检测结果验证了我们提出的基准的有效性和必要性。我们的工作为未来检测AI生成的诗歌奠定了基础。

🔬 方法详解

问题定义：论文旨在解决如何有效检测由大型语言模型（LLMs）生成的现代中文诗歌的问题。现有方法在通用文本检测上取得了一定进展，但由于现代中文诗歌的特殊性（例如，对仗、押韵、意境等），直接应用这些方法效果不佳。此外，缺乏高质量的现代中文诗歌数据集用于训练和评估检测模型，这进一步加剧了该问题的难度。现有方法难以捕捉诗歌的内在风格和情感，容易被LLM生成的看似流畅但缺乏深度的诗歌所迷惑。

核心思路：论文的核心思路是构建一个专门针对现代中文诗歌的检测基准，包括高质量的数据集和系统的评估流程。通过在该基准上评估现有检测器的性能，可以揭示它们在处理现代中文诗歌时的局限性，并为未来开发更有效的检测方法提供指导。该基准的构建旨在模拟真实场景，涵盖不同风格的诗歌和不同LLM生成的文本，从而提高检测的鲁棒性和泛化能力。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 数据集构建：收集人类诗人创作的诗歌和使用LLM生成的诗歌，并进行清洗和标注。2) 模型选择：选择现有的文本检测模型作为基线模型。3) 实验评估：在构建的数据集上评估基线模型的性能，并分析结果。4) 结果分析：分析现有模型在检测现代中文诗歌时的优缺点，并提出改进方向。

关键创新：该论文的关键创新在于构建了一个专门用于检测LLM生成的现代中文诗歌的高质量基准数据集。该数据集包含了大量由不同LLM生成的诗歌，以及由专业诗人创作的诗歌，涵盖了不同的风格和主题。此外，论文还对现有文本检测模型在数据集上的性能进行了系统的评估，揭示了它们在处理现代中文诗歌时的局限性。

关键设计：数据集构建方面，论文精心挑选了六位专业诗人的作品，并使用四个主流LLM生成了大量的诗歌。在模型评估方面，论文选择了六个具有代表性的文本检测器，并使用了常用的评价指标（如准确率、召回率、F1值）来评估它们的性能。此外，论文还对实验结果进行了深入的分析，探讨了不同因素（如诗歌风格、LLM类型）对检测性能的影响。

📊 实验亮点

实验结果表明，现有文本检测器在检测LLM生成的现代中文诗歌时表现不佳，难以有效区分人类创作和AI创作的诗歌。尤其是在检测诗歌的内在品质（如风格）时，检测器的性能显著下降。这表明，需要开发专门针对现代中文诗歌的检测方法，以提高检测的准确性和可靠性。

🎯 应用场景

该研究成果可应用于诗歌创作平台、文学评论网站等，用于识别和过滤AI生成的低质量诗歌，维护诗歌创作的原创性和艺术价值。此外，该研究也有助于提高公众对AI生成内容的辨别能力，防止虚假信息和低质量内容泛滥，促进健康的网络文化生态。

📄 摘要（原文）

The rapid development of advanced large language models (LLMs) has made AI-generated text indistinguishable from human-written text. Previous work on detecting AI-generated text has made effective progress, but has not involved modern Chinese poetry. Due to the distinctive characteristics of modern Chinese poetry, it is difficult to identify whether a poem originated from humans or AI. The proliferation of AI-generated modern Chinese poetry has significantly disrupted the poetry ecosystem. Based on the urgency of identifying AI-generated poetry in the real Chinese world, this paper proposes a novel benchmark for detecting LLMs-generated modern Chinese poetry. We first construct a high-quality dataset, which includes both 800 poems written by six professional poets and 41,600 poems generated by four mainstream LLMs. Subsequently, we conduct systematic performance assessments of six detectors on this dataset. Experimental results demonstrate that current detectors cannot be used as reliable tools to detect modern Chinese poems generated by LLMs. The most difficult poetic features to detect are intrinsic qualities, especially style. The detection results verify the effectiveness and necessity of our proposed benchmark. Our work lays a foundation for future detection of AI-generated poetry.

Benchmarking the Detection of LLMs-Generated Modern Chinese Poetry

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册