Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Consulting, Data Analyst, and Management Tasks

作者: Ali Merali

分类: econ.GN, cs.AI, cs.HC

发布日期: 2025-12-24

💡 一句话要点

量化LLM规模对经济生产力的影响：咨询、数据分析与管理任务的实验证据

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 经济生产力 规模定律 实验研究 人工智能 算力 算法进步

📋 核心要点

现有研究缺乏对LLM训练算力与专业人员生产力之间量化关系的深入探索，阻碍了对AI经济影响的准确预测。
该研究通过实验方法，量化了LLM训练算力、算法进步与专业人员在咨询、数据分析和管理任务中的生产力提升之间的关系。
实验结果表明，LLM的进步显著提升了生产力，但不同类型任务的提升幅度存在差异，并预测了未来十年AI对美国生产力的潜在影响。

📝 摘要（中文）

本文推导了“经济影响的规模定律”，即大型语言模型（LLM）的训练算力与专业生产力之间的经验关系。在一项预先注册的实验中，超过500名顾问、数据分析师和管理人员使用13个LLM完成了专业任务。研究发现，人工智能模型每进步一年，任务时间缩短8%，其中56%的收益来自算力的增加，44%来自算法的进步。然而，对于非代理分析任务，生产力提升显著高于需要工具使用的代理工作流程。这些发现表明，持续的模型扩展可能在未来十年内将美国生产力提高约20%。

🔬 方法详解

问题定义：论文旨在解决如何量化大型语言模型（LLM）的训练算力对经济生产力的影响这一问题。现有方法缺乏对LLM规模、算法进步与专业人员生产力之间关系的精确建模，难以准确预测AI对经济的潜在影响。特别是，不同类型任务（如分析型与代理型）对LLM能力的需求差异尚未得到充分研究。

核心思路：论文的核心思路是通过设计一个大规模的实验，让专业人员使用不同规模和算法的LLM完成实际工作任务，从而建立LLM训练算力与生产力提升之间的经验关系。通过控制实验变量，可以区分算力提升和算法进步对生产力的独立贡献。此外，研究还关注不同类型任务对LLM能力的需求差异，从而更全面地评估LLM的经济影响。

技术框架：该研究的技术框架主要包括以下几个阶段： 1. 任务设计：选择具有代表性的咨询、数据分析和管理任务，确保任务难度适中，能够反映专业人员的实际工作场景。 2. 模型选择：选取13个不同规模和算法的LLM，覆盖不同时期的AI模型发展水平。 3. 实验招募：招募超过500名顾问、数据分析师和管理人员参与实验。 4. 实验执行：参与者使用不同的LLM完成预先设计的任务，记录任务完成时间和其他相关指标。 5. 数据分析：分析实验数据，建立LLM训练算力、算法进步与生产力提升之间的经验关系，并进行统计显著性检验。

关键创新：该研究的关键创新在于： 1. 量化经济影响：首次通过大规模实验量化了LLM训练算力对专业人员生产力的影响，建立了“经济影响的规模定律”。 2. 区分算力与算法贡献：通过控制实验变量，区分了算力提升和算法进步对生产力的独立贡献。 3. 关注任务类型差异：研究关注不同类型任务对LLM能力的需求差异，更全面地评估了LLM的经济影响。

关键设计：实验的关键设计包括： 1. 预先注册：为了确保研究的透明性和可重复性，实验方案在执行前进行了预先注册。 2. 任务选择：任务选择具有代表性的咨询、数据分析和管理任务，确保任务难度适中，能够反映专业人员的实际工作场景。 3. 模型选择：选取13个不同规模和算法的LLM，覆盖不同时期的AI模型发展水平。 4. 指标选择：选择任务完成时间作为主要生产力指标，并记录其他相关指标，如任务质量和用户满意度。

📊 实验亮点

实验结果表明，人工智能模型每进步一年，任务时间缩短8%，其中56%的收益来自算力的增加，44%来自算法的进步。对于非代理分析任务，生产力提升显著高于需要工具使用的代理工作流程。研究预测，持续的模型扩展可能在未来十年内将美国生产力提高约20%。

🎯 应用场景

该研究成果可应用于预测AI技术对各行各业生产力的潜在影响，指导企业和政府制定AI发展战略。例如，企业可以根据LLM的规模定律，评估投资AI技术的潜在回报；政府可以根据研究结果，制定促进AI技术创新和应用的政策，以提高国家整体生产力。此外，该研究还可以帮助教育机构调整课程设置，培养适应AI时代需求的专业人才。

📄 摘要（原文）

This paper derives `Scaling Laws for Economic Impacts' -- empirical relationships between the training compute of Large Language Models (LLMs) and professional productivity. In a preregistered experiment, over 500 consultants, data analysts, and managers completed professional tasks using one of 13 LLMs. We find that each year of AI model progress reduced task time by 8%, with 56% of gains driven by increased compute and 44% by algorithmic progress. However, productivity gains were significantly larger for non-agentic analytical tasks compared to agentic workflows requiring tool use. These findings suggest continued model scaling could boost U.S. productivity by approximately 20% over the next decade.

Scaling Laws for Economic Productivity: Experimental Evidence in LLM-Assisted Consulting, Data Analyst, and Management Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册