On Recipe Memorization and Creativity in Large Language Models: Is Your Model a Creative Cook, a Bad Cook, or Merely a Plagiator?

📄 arXiv: 2506.23527v1 📥 PDF

作者: Jan Kvapil, Martin Fajcik

分类: cs.CL

发布日期: 2025-06-30

备注: 13 pages, 5 figures


💡 一句话要点

提出自动化框架以评估大语言模型的食谱记忆与创造力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 食谱生成 自动化评估 创造力分析 机器学习

📋 核心要点

  1. 现有方法在评估大语言模型生成的食谱时,缺乏系统性和规模化的分析手段,难以准确区分记忆内容与创造性生成。
  2. 本研究提出了一个自动化的“LLM作为评判者”框架,通过机器学习技术实现食谱生成、成分解析和无意义内容检测的自动化。
  3. 实验结果表明,使用Llama 3.1+Gemma 2 9B的自动化框架在成分匹配上达到了78%的准确率,显著提升了分析的效率和规模。

📝 摘要(中文)

本研究探讨了大语言模型(LLMs)生成的烹饪食谱中的记忆、创造力和无意义内容。我们旨在通过高质量的人类判断分析食谱的记忆和创造力,并设计自动化方法以扩展研究规模。通过对20个预选食谱的详细人工注释,我们发现模型Mixtral在生成食谱时强烈依赖于在线文档中的记忆内容。为此,我们设计了一个“LLM作为评判者”的自动化管道,能够生成食谱、检测无意义内容、解析成分和步骤,并进行注释。该框架的应用使得我们能够大规模量化生成食谱中的记忆、创造力和无意义内容,提供了模型创造能力的严谨证据。

🔬 方法详解

问题定义:本研究旨在解决如何有效评估大语言模型生成的食谱中的记忆、创造力和无意义内容的问题。现有方法通常依赖人工评估,难以扩展到大规模数据集,且评估结果的主观性较强。

核心思路:论文提出的核心思路是构建一个自动化的评估框架,利用LLM自身作为评判者,自动生成食谱并进行内容分析,以实现大规模的评估和量化。

技术框架:整体架构包括四个主要模块:食谱生成模块、无意义内容检测模块、成分解析模块和注释模块。通过这些模块的协同工作,能够实现从生成到评估的全流程自动化。

关键创新:最重要的技术创新在于将LLM作为评判者,利用其生成能力和理解能力进行自动化评估。这一方法与传统的人工评估方法相比,能够显著提高效率和一致性。

关键设计:在关键设计方面,采用了Llama 3.1+Gemma 2 9B作为成分提取和注释的工具,设置了适当的阈值和损失函数,以优化成分匹配的准确性。

📊 实验亮点

实验结果显示,使用Llama 3.1+Gemma 2 9B的自动化框架在成分匹配上达到了78%的准确率,相较于传统人工评估方法,显著提高了分析效率和一致性,展示了模型在食谱生成中的创造潜力。

🎯 应用场景

该研究的潜在应用领域包括食品科技、烹饪教育和人工智能创作等。通过自动化评估框架,研究者和开发者可以更高效地分析和改进大语言模型在生成食谱方面的表现,推动智能烹饪助手和个性化饮食推荐系统的发展。

📄 摘要(原文)

This work-in-progress investigates the memorization, creativity, and nonsense found in cooking recipes generated from Large Language Models (LLMs). Precisely, we aim (i) to analyze memorization, creativity, and non-sense in LLMs using a small, high-quality set of human judgments and (ii) to evaluate potential approaches to automate such a human annotation in order to scale our study to hundreds of recipes. To achieve (i), we conduct a detailed human annotation on 20 preselected recipes generated by LLM (Mixtral), extracting each recipe's ingredients and step-by-step actions to assess which elements are memorized--i.e., directly traceable to online sources possibly seen during training--and which arise from genuine creative synthesis or outright nonsense. We find that Mixtral consistently reuses ingredients that can be found in online documents, potentially seen during model training, suggesting strong reliance on memorized content. To achieve aim (ii) and scale our analysis beyond small sample sizes and single LLM validation, we design an ``LLM-as-judge'' pipeline that automates recipe generation, nonsense detection, parsing ingredients and recipe steps, and their annotation. For instance, comparing its output against human annotations, the best ingredient extractor and annotator is Llama 3.1+Gemma 2 9B, achieving up to 78% accuracy on ingredient matching. This automated framework enables large-scale quantification of memorization, creativity, and nonsense in generated recipes, providing rigorous evidence of the models' creative capacities.