Predicting Effects, Missing Distributions: Evaluating LLMs as Human Behavior Simulators in Operations Management
作者: Runze Zhang, Xiaowei Zhang, Mingyang Zhao
分类: cs.LG, cs.AI
发布日期: 2025-09-30
💡 一句话要点
评估LLM在运营管理中作为人类行为模拟器的能力:效果预测与分布对齐
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人类行为模拟 运营管理 决策偏差 Wasserstein距离
📋 核心要点
- 现有方法在模拟运营管理中的人类行为时成本高昂,且难以规模化。
- 论文提出利用LLM模拟人类行为,并评估其在假设检验和分布对齐方面的表现。
- 实验表明,LLM能重现假设层面的效应,但响应分布与人类数据存在偏差,可通过干预措施改善。
📝 摘要(中文)
大型语言模型(LLM)正成为模拟商业、经济和社会科学领域人类行为的新兴工具,为实验室实验、实地研究和调查提供了一种低成本的补充方案。本文评估了LLM在运营管理中复制人类行为的能力。我们利用行为运营中已发表的九项实验,从两个标准进行评估:假设检验结果的复制和通过Wasserstein距离实现的分布对齐。LLM重现了大多数假设层面的效应,捕捉到了关键的决策偏差,但它们的响应分布与人类数据存在差异,即使是强大的商业模型也是如此。我们还测试了两种轻量级干预措施——思维链提示和超参数调整——它们减少了错位,有时可以让较小的或开源模型匹配或超过较大的系统。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在模拟运营管理领域人类行为方面的能力。现有方法,如实验室实验、实地研究和调查,成本高昂且难以大规模应用。因此,研究人员希望探索LLM是否可以作为一种低成本、可扩展的替代方案,以预测人类在运营管理场景中的决策行为。现有方法的痛点在于成本、时间和可扩展性。
核心思路:论文的核心思路是利用LLM生成在特定运营管理场景下的决策行为,然后将LLM的预测结果与真实人类的实验数据进行对比,从而评估LLM的模拟能力。通过比较假设检验的结果和响应分布的相似性,来判断LLM是否能够准确地捕捉到人类决策的关键特征和偏差。论文还探索了通过思维链提示和超参数调整等轻量级干预措施来提高LLM模拟准确性的方法。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选取行为运营管理领域已发表的实验作为基准;2) 使用LLM生成在这些实验场景下的决策行为;3) 将LLM的预测结果与真实人类的实验数据进行对比,评估假设检验结果的复制情况;4) 使用Wasserstein距离等指标评估LLM生成响应分布与人类数据分布的对齐程度;5) 测试思维链提示和超参数调整等干预措施对LLM模拟效果的影响。
关键创新:论文的关键创新在于首次系统性地评估了LLM在模拟运营管理领域人类行为方面的能力。与以往的研究不同,该论文不仅关注LLM是否能够重现假设检验的结果,还关注LLM生成响应分布与人类数据分布的相似性。此外,论文还探索了通过轻量级干预措施来提高LLM模拟准确性的方法,为未来利用LLM进行人类行为模拟研究提供了新的思路。
关键设计:论文的关键设计包括:1) 选取了九个已发表的行为运营管理实验,涵盖了不同的决策场景和行为偏差;2) 使用Wasserstein距离作为评估响应分布相似性的指标;3) 采用了思维链提示(Chain-of-Thought prompting)作为一种轻量级干预措施,引导LLM进行更深入的思考;4) 探索了超参数调整对LLM模拟效果的影响,例如调整温度参数以控制生成结果的随机性。具体参数设置和损失函数细节未知。
📊 实验亮点
实验结果表明,LLM在重现假设层面的效应方面表现良好,能够捕捉到关键的决策偏差。然而,LLM的响应分布与人类数据存在显著差异,即使是强大的商业模型也是如此。通过思维链提示和超参数调整等轻量级干预措施,可以有效减少分布错位,有时甚至可以让较小的或开源模型匹配或超过较大的系统。具体性能提升幅度未知。
🎯 应用场景
该研究成果可应用于运营管理决策支持、供应链风险评估、消费者行为预测等领域。通过利用LLM模拟人类行为,企业可以更有效地评估不同策略的潜在影响,优化资源配置,并制定更明智的商业决策。未来,该技术有望推动运营管理领域的智能化和自动化。
📄 摘要(原文)
LLMs are emerging tools for simulating human behavior in business, economics, and social science, offering a lower-cost complement to laboratory experiments, field studies, and surveys. This paper evaluates how well LLMs replicate human behavior in operations management. Using nine published experiments in behavioral operations, we assess two criteria: replication of hypothesis-test outcomes and distributional alignment via Wasserstein distance. LLMs reproduce most hypothesis-level effects, capturing key decision biases, but their response distributions diverge from human data, including for strong commercial models. We also test two lightweight interventions -- chain-of-thought prompting and hyperparameter tuning -- which reduce misalignment and can sometimes let smaller or open-source models match or surpass larger systems.