Finetuning LLMs for Human Behavior Prediction in Social Science Experiments
作者: Akaash Kolluri, Shengguang Wu, Joon Sung Park, Michael S. Bernstein
分类: cs.LG, cs.CY
发布日期: 2025-09-06 (更新: 2025-11-05)
备注: 16 pages, 5 figures
期刊: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 30084-30099
💡 一句话要点
通过微调LLM,提升社会科学实验中人类行为预测的准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社会科学实验 人类行为预测 微调 泛化能力
📋 核心要点
- 现有方法难以准确模拟社会科学实验中复杂的人类行为,限制了实验假设的有效筛选。
- 通过在包含大量社会科学实验数据的SocSci210数据集上微调LLM,模型能够学习人类行为的模式。
- 实验表明,微调后的模型在预测人类行为方面显著优于基线模型,并在泛化性和减少偏差方面有所提升。
📝 摘要(中文)
本文探讨了利用大型语言模型(LLM)模拟社会科学实验结果的可能性。研究表明,直接在过去实验的个体层面响应数据上微调LLM,能够显著提高此类模拟在不同社会科学领域的准确性。作者通过自动流程构建了SocSci210数据集,该数据集包含来自210个开源社会科学实验中400,491名参与者的290万个响应。通过微调,模型实现了多层次的泛化。在完全未见过的研究中,最强的模型Socrates-Qwen-14B相对于其基础模型(Qwen2.5-14B),在不同条件下对各种结果问题的预测与人类响应分布的对齐度提高了26%,超过GPT-4o 13%。通过在研究的条件子集上进行微调,对新的未见条件的泛化能力尤其强大,提高了71%。由于SocSci210包含丰富的统计信息,通过微调,人口统计均等性差异(一种偏差度量)降低了10.6%。研究结果表明,由于社会科学经常生成丰富的主题特定数据集,因此在此类数据上进行微调可以实现更准确的实验假设筛选模拟。作者发布了数据、模型和微调代码。
🔬 方法详解
问题定义:论文旨在解决社会科学实验中人类行为预测不准确的问题。现有方法,如直接使用通用LLM,无法充分捕捉特定实验场景下人类行为的细微差别,导致模拟结果与真实情况存在偏差。这限制了研究人员利用模拟来快速筛选和验证实验假设的能力。
核心思路:论文的核心思路是利用社会科学领域已有的丰富实验数据,通过微调LLM,使模型能够学习特定实验场景下的人类行为模式。这种方法能够使LLM更好地理解实验设计、问题设置以及参与者的背景信息,从而更准确地预测人类行为。
技术框架:整体框架包括以下几个主要步骤:1) 构建SocSci210数据集,该数据集包含大量社会科学实验的参与者响应数据;2) 选择预训练的LLM作为基础模型,例如Qwen2.5-14B;3) 在SocSci210数据集上对LLM进行微调,使其适应社会科学实验的预测任务;4) 在不同的实验场景下评估微调后模型的性能,包括在未见过的研究和未见过的条件下进行泛化测试;5) 分析模型的偏差,并尝试通过微调来减少偏差。
关键创新:论文的关键创新在于:1) 构建了大规模的SocSci210数据集,为LLM的微调提供了充足的数据支持;2) 证明了直接在个体层面的实验响应数据上微调LLM能够显著提高人类行为预测的准确性;3) 探索了微调LLM在不同泛化场景下的性能,包括对未见过的研究和未见过的条件的泛化;4) 提出了通过微调来减少模型偏差的方法。
关键设计:论文的关键设计包括:1) SocSci210数据集的构建过程,包括数据的自动收集、清洗和整合;2) 微调过程中的超参数设置,例如学习率、batch size等;3) 评估指标的选择,包括预测准确率、泛化能力和偏差度量;4) 模型架构的选择,例如选择Qwen2.5-14B作为基础模型。
📊 实验亮点
Socrates-Qwen-14B模型在未见过的研究中,预测与人类响应分布的对齐度比基础模型Qwen2.5-14B提高了26%,超过GPT-4o 13%。在研究的条件子集上进行微调后,对新的未见条件的泛化能力提高了71%。通过微调,人口统计均等性差异(一种偏差度量)降低了10.6%。这些结果表明,微调LLM能够显著提高社会科学实验中人类行为预测的准确性和公平性。
🎯 应用场景
该研究成果可应用于社会科学研究的多个领域,例如实验设计优化、政策效果评估、行为干预模拟等。通过使用微调后的LLM进行实验模拟,研究人员可以更高效地筛选和验证实验假设,降低实验成本,并更好地理解人类行为的复杂性。此外,该方法还可以用于预测不同人群对特定政策或干预措施的反应,从而为政策制定提供更科学的依据。
📄 摘要(原文)
Large language models (LLMs) offer a powerful opportunity to simulate the results of social science experiments. In this work, we demonstrate that finetuning LLMs directly on individual-level responses from past experiments meaningfully improves the accuracy of such simulations across diverse social science domains. We construct SocSci210 via an automatic pipeline, a dataset comprising 2.9 million responses from 400,491 participants in 210 open-source social science experiments. Through finetuning, we achieve multiple levels of generalization. In completely unseen studies, our strongest model, Socrates-Qwen-14B, produces predictions that are 26% more aligned with distributions of human responses to diverse outcome questions under varying conditions relative to its base model (Qwen2.5-14B), outperforming GPT-4o by 13%. By finetuning on a subset of conditions in a study, generalization to new unseen conditions is particularly robust, improving by 71%. Since SocSci210 contains rich demographic information, we reduce demographic parity difference, a measure of bias, by 10.6% through finetuning. Because social sciences routinely generate rich, topic-specific datasets, our findings indicate that finetuning on such data could enable more accurate simulations for experimental hypothesis screening. We release our data, models and finetuning code at stanfordhci.github.io/socrates.