The Ideation-Execution Gap: Execution Outcomes of LLM-Generated versus Human Research Ideas

📄 arXiv: 2506.20803v1 📥 PDF

作者: Chenglei Si, Tatsunori Hashimoto, Diyi Yang

分类: cs.CL, cs.AI, cs.CY, cs.HC, cs.LG

发布日期: 2025-06-25

备注: main paper is 14 pages


💡 一句话要点

揭示LLM生成研究创意与人类创意执行结果的差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 研究创意 执行效果 盲评 科学研究

📋 核心要点

  1. 现有研究表明,LLM生成的创意在新颖性上优于人类创意,但执行效果却未得到验证。
  2. 本研究通过让专家执行随机分配的创意,比较LLM与人类创意在实际研究中的效果,揭示其差距。
  3. 实验结果显示,LLM生成的创意在执行后的评审分数显著下降,表明其在实际应用中的不足。

📝 摘要(中文)

大型语言模型(LLMs)在加速科学研究流程方面展现出潜力,尤其是在生成新颖研究创意方面。然而,创意的价值不仅在于其表面新颖性,更在于执行后的研究成果。为此,研究者招募43名专家,随机分配由人类或LLM生成的创意进行执行。结果显示,LLM生成的创意在执行后的评审分数显著低于人类创意,揭示了当前LLM在生成有效研究创意方面的局限性。

🔬 方法详解

问题定义:本论文旨在解决LLM生成的研究创意在执行后效果不佳的问题。现有方法未能充分评估创意的实际执行结果,导致对LLM能力的误判。

核心思路:通过让专家执行由LLM和人类生成的创意,并进行盲评,比较两者在实际研究中的表现,从而揭示LLM生成创意的局限性。

技术框架:研究设计包括创意生成、专家执行、实验记录和盲评四个主要阶段。每位专家花费超过100小时实施创意,并撰写4页短文记录实验过程。

关键创新:本研究的创新在于通过实际执行来评估创意的有效性,而非仅依赖于主观判断。这一方法揭示了LLM生成创意在实际应用中的不足之处。

关键设计:实验中采用了随机分配创意的方式,确保评估的公正性。评审指标包括新颖性、兴奋度、有效性和总体评分,所有评审均由专家进行盲评。实验结果显示,LLM生成的创意在所有评估指标上得分显著低于人类创意。

📊 实验亮点

实验结果表明,LLM生成的创意在执行后的评审分数显著下降,尤其在新颖性、兴奋度和有效性等指标上,得分下降幅度超过人类创意,且在许多指标上排名发生翻转,显示出人类创意的优势。这一发现强调了LLM在生成有效研究创意方面的局限性。

🎯 应用场景

该研究的结果对科学研究领域具有重要的应用价值,尤其是在利用AI辅助创意生成时。通过揭示LLM生成创意的局限性,研究者可以更好地理解如何结合人类智慧与AI工具,从而提高研究成果的质量和有效性。未来,研究者可以探索改进LLM生成创意的策略,以缩小创意生成与执行之间的差距。

📄 摘要(原文)

Large Language Models (LLMs) have shown promise in accelerating the scientific research pipeline. A key capability for this process is the ability to generate novel research ideas, and prior studies have found settings in which LLM-generated research ideas were judged as more novel than human-expert ideas. However, a good idea should not simply appear to be novel, it should also result in better research after being executed. To test whether AI-generated ideas lead to better research outcomes, we conduct an execution study by recruiting 43 expert researchers to execute randomly-assigned ideas, either written by experts or generated by an LLM. Each expert spent over 100 hours implementing the idea and wrote a 4-page short paper to document the experiments. All the executed projects are then reviewed blindly by expert NLP researchers. Comparing the review scores of the same ideas before and after execution, the scores of the LLM-generated ideas decrease significantly more than expert-written ideas on all evaluation metrics (novelty, excitement, effectiveness, and overall; p < 0.05), closing the gap between LLM and human ideas observed at the ideation stage. When comparing the aggregated review scores from the execution study, we even observe that for many metrics there is a flip in rankings where human ideas score higher than LLM ideas. This ideation-execution gap highlights the limitations of current LLMs in generating truly effective research ideas and the challenge of evaluating research ideas in the absence of execution outcomes.