Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
作者: Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie
分类: cs.CL, cs.AI
发布日期: 2026-03-06
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出ConStory-Bench基准测试,评估大型语言模型在长篇故事生成中的一致性问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本生成 一致性评估 大型语言模型 故事生成 基准测试
📋 核心要点
- 现有长篇故事生成评估侧重于情节和流畅性,忽略了一致性问题,导致LLM在长文本中容易出现自相矛盾。
- ConStory-Bench基准通过2000个提示和细粒度的错误分类,系统性地评估LLM在长篇故事生成中的一致性。
- 实验发现一致性错误在事实和时间维度上更常见,多发于故事中部,并与token熵和特定错误类型相关联。
📝 摘要(中文)
大型语言模型(LLMs)在生成长篇叙事时,常常无法保持故事前后的一致性,例如违反已建立的事实、人物性格和世界规则。现有故事生成基准主要关注情节质量和流畅性,忽略了一致性错误。为了解决这个问题,我们提出了ConStory-Bench,一个旨在评估长篇故事生成中叙事一致性的基准。它包含跨四个任务场景的2000个提示,并定义了包含19个细粒度子类型的五种错误类别。我们还开发了ConStory-Checker,一个自动化的流程,用于检测矛盾并在明确的文本证据中进行判断。通过五个研究问题评估了一系列LLM,我们发现一致性错误显示出明显的趋势:它们在事实和时间维度上最常见,倾向于出现在叙事的中部,发生在具有较高token级别熵的文本段中,并且某些错误类型倾向于共同发生。这些发现可以为未来改进长篇叙事生成中的一致性提供信息。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在生成长篇故事时出现的一致性问题。现有方法和基准测试主要关注故事的情节质量和流畅性,而忽略了LLM在长文本中保持一致性的能力,例如事实、人物性格和世界观的自洽。这种忽略导致LLM在生成长篇叙事时容易出现自相矛盾的情况,影响故事的质量和可信度。
核心思路:论文的核心思路是构建一个专门用于评估长篇故事生成中一致性问题的基准测试,即ConStory-Bench。通过设计包含多种任务场景和细粒度错误分类的测试用例,系统性地评估LLM在长文本中保持一致性的能力。同时,开发自动化的评估流程ConStory-Checker,减少人工评估的成本和主观性。
技术框架:ConStory-Bench基准测试包含以下几个主要组成部分:1) 2000个提示,涵盖四个不同的任务场景;2) 五种错误类别,包含19个细粒度的子类型,用于对一致性错误进行分类;3) ConStory-Checker自动化评估流程,用于检测矛盾并在文本中寻找证据。ConStory-Checker的具体流程未知。
关键创新:论文的关键创新在于提出了ConStory-Bench基准测试,这是第一个专门用于评估长篇故事生成中一致性问题的基准。与现有基准测试相比,ConStory-Bench更加关注LLM在长文本中保持一致性的能力,并提供了细粒度的错误分类,有助于更全面地评估LLM的性能。
关键设计:关于ConStory-Bench基准测试的关键设计细节包括:1) 任务场景的选择,需要覆盖不同类型的故事和写作风格;2) 错误类别的定义,需要足够全面和细致,能够捕捉到各种类型的一致性错误;3) ConStory-Checker自动化评估流程的设计,需要保证准确性和效率。关于具体的参数设置、损失函数、网络结构等技术细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,一致性错误在事实和时间维度上最常见,倾向于出现在叙事的中部,发生在具有较高token级别熵的文本段中,并且某些错误类型倾向于共同发生。这些发现为改进长篇叙事生成中的一致性提供了重要的指导,例如可以针对特定类型的错误进行优化,或者在故事中部加强一致性检查。
🎯 应用场景
该研究成果可应用于提升长篇内容生成系统的质量,例如小说创作、剧本编写、游戏剧情设计等。通过ConStory-Bench基准测试,可以系统性地评估和改进LLM在长文本生成中的一致性,从而提高生成内容的质量和可信度,减少人工干预的需求。未来,该研究可以推动LLM在创意内容生成领域的更广泛应用。
📄 摘要(原文)
What happens when a storyteller forgets its own story? Large Language Models (LLMs) can now generate narratives spanning tens of thousands of words, but they often fail to maintain consistency throughout. When generating long-form narratives, these models can contradict their own established facts, character traits, and world rules. Existing story generation benchmarks focus mainly on plot quality and fluency, leaving consistency errors largely unexplored. To address this gap, we present ConStory-Bench, a benchmark designed to evaluate narrative consistency in long-form story generation. It contains 2,000 prompts across four task scenarios and defines a taxonomy of five error categories with 19 fine-grained subtypes. We also develop ConStory-Checker, an automated pipeline that detects contradictions and grounds each judgment in explicit textual evidence. Evaluating a range of LLMs through five research questions, we find that consistency errors show clear tendencies: they are most common in factual and temporal dimensions, tend to appear around the middle of narratives, occur in text segments with higher token-level entropy, and certain error types tend to co-occur. These findings can inform future efforts to improve consistency in long-form narrative generation. Our project page is available at https://picrew.github.io/constory-bench.github.io/.