Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Consulting, Data Analyst, and Management Tasks

📄 arXiv: 2512.21316v1 📥 PDF

作者: Ali Merali

分类: econ.GN, cs.AI, cs.HC

发布日期: 2025-12-24


💡 一句话要点

量化LLM规模对经济生产力的影响:咨询、数据分析与管理任务的实验证据

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 经济生产力 规模定律 实验研究 人工智能 算力 算法进步

📋 核心要点

  1. 现有研究缺乏对LLM训练算力与专业人员生产力之间量化关系的深入探索,阻碍了对AI经济影响的准确预测。
  2. 该研究通过实验方法,量化了LLM训练算力、算法进步与专业人员在咨询、数据分析和管理任务中的生产力提升之间的关系。
  3. 实验结果表明,LLM的进步显著提升了生产力,但不同类型任务的提升幅度存在差异,并预测了未来十年AI对美国生产力的潜在影响。

📝 摘要(中文)

本文推导了“经济影响的规模定律”,即大型语言模型(LLM)的训练算力与专业生产力之间的经验关系。在一项预先注册的实验中,超过500名顾问、数据分析师和管理人员使用13个LLM完成了专业任务。研究发现,人工智能模型每进步一年,任务时间缩短8%,其中56%的收益来自算力的增加,44%来自算法的进步。然而,对于非代理分析任务,生产力提升显著高于需要工具使用的代理工作流程。这些发现表明,持续的模型扩展可能在未来十年内将美国生产力提高约20%。

🔬 方法详解

问题定义:论文旨在解决如何量化大型语言模型(LLM)的训练算力对经济生产力的影响这一问题。现有方法缺乏对LLM规模、算法进步与专业人员生产力之间关系的精确建模,难以准确预测AI对经济的潜在影响。特别是,不同类型任务(如分析型与代理型)对LLM能力的需求差异尚未得到充分研究。

核心思路:论文的核心思路是通过设计一个大规模的实验,让专业人员使用不同规模和算法的LLM完成实际工作任务,从而建立LLM训练算力与生产力提升之间的经验关系。通过控制实验变量,可以区分算力提升和算法进步对生产力的独立贡献。此外,研究还关注不同类型任务对LLM能力的需求差异,从而更全面地评估LLM的经济影响。

技术框架:该研究的技术框架主要包括以下几个阶段: 1. 任务设计:选择具有代表性的咨询、数据分析和管理任务,确保任务难度适中,能够反映专业人员的实际工作场景。 2. 模型选择:选取13个不同规模和算法的LLM,覆盖不同时期的AI模型发展水平。 3. 实验招募:招募超过500名顾问、数据分析师和管理人员参与实验。 4. 实验执行:参与者使用不同的LLM完成预先设计的任务,记录任务完成时间和其他相关指标。 5. 数据分析:分析实验数据,建立LLM训练算力、算法进步与生产力提升之间的经验关系,并进行统计显著性检验。

关键创新:该研究的关键创新在于: 1. 量化经济影响:首次通过大规模实验量化了LLM训练算力对专业人员生产力的影响,建立了“经济影响的规模定律”。 2. 区分算力与算法贡献:通过控制实验变量,区分了算力提升和算法进步对生产力的独立贡献。 3. 关注任务类型差异:研究关注不同类型任务对LLM能力的需求差异,更全面地评估了LLM的经济影响。

关键设计:实验的关键设计包括: 1. 预先注册:为了确保研究的透明性和可重复性,实验方案在执行前进行了预先注册。 2. 任务选择:任务选择具有代表性的咨询、数据分析和管理任务,确保任务难度适中,能够反映专业人员的实际工作场景。 3. 模型选择:选取13个不同规模和算法的LLM,覆盖不同时期的AI模型发展水平。 4. 指标选择:选择任务完成时间作为主要生产力指标,并记录其他相关指标,如任务质量和用户满意度。

📊 实验亮点

实验结果表明,人工智能模型每进步一年,任务时间缩短8%,其中56%的收益来自算力的增加,44%来自算法的进步。对于非代理分析任务,生产力提升显著高于需要工具使用的代理工作流程。研究预测,持续的模型扩展可能在未来十年内将美国生产力提高约20%。

🎯 应用场景

该研究成果可应用于预测AI技术对各行各业生产力的潜在影响,指导企业和政府制定AI发展战略。例如,企业可以根据LLM的规模定律,评估投资AI技术的潜在回报;政府可以根据研究结果,制定促进AI技术创新和应用的政策,以提高国家整体生产力。此外,该研究还可以帮助教育机构调整课程设置,培养适应AI时代需求的专业人才。

📄 摘要(原文)

This paper derives `Scaling Laws for Economic Impacts' -- empirical relationships between the training compute of Large Language Models (LLMs) and professional productivity. In a preregistered experiment, over 500 consultants, data analysts, and managers completed professional tasks using one of 13 LLMs. We find that each year of AI model progress reduced task time by 8%, with 56% of gains driven by increased compute and 44% by algorithmic progress. However, productivity gains were significantly larger for non-agentic analytical tasks compared to agentic workflows requiring tool use. These findings suggest continued model scaling could boost U.S. productivity by approximately 20% over the next decade.