Learning from Convenience Samples: A Case Study on Fine-Tuning LLMs for Survey Non-response in the German Longitudinal Election Study

作者: Tobias Holtdirk, Dennis Assenmacher, Arnim Bleier, Claudia Wagner

分类: cs.CY, cs.CL

发布日期: 2025-09-29

💡 一句话要点

微调LLM解决调查非回应问题，利用便利样本提升选举研究准确性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 微调 调查非回应 便利样本 选举研究

📋 核心要点

传统调查研究面临成本高昂和数据缺失的挑战，影响推断的准确性，便利样本的使用日益增加。
该研究通过在部分调查回复数据上微调LLM，以填补随机和系统性非回应下的投票选择，提升预测准确性。
实验表明，微调后的LLM在数据完全随机缺失时与表格分类器性能相当，优于零样本方法，且能有效利用有偏便利样本。

📝 摘要（中文）

调查研究人员面临概率样本成本上升和数据缺失（如非回应或衰减）的双重挑战，这会损害推断并增加便利样本的使用。最近的研究探索了使用大型语言模型（LLM）通过基于角色的提示来模拟受访者，通常无需标记数据。我们研究了一个更实际的场景，即存在部分调查回复：我们使用德国纵向选举研究，在随机和系统性非回应下，微调LLM以推算自我报告的投票选择。我们将零样本提示和监督微调与表格分类器（如CatBoost）进行比较，并测试用于微调的不同便利样本（如学生）如何影响泛化。

🔬 方法详解

问题定义：论文旨在解决调查研究中因非回应造成的投票选择数据缺失问题。现有方法，如传统的统计模型和零样本LLM，在处理系统性非回应和有偏便利样本时表现不佳，导致推断偏差。

核心思路：论文的核心思路是利用已有的部分调查回复数据，对LLM进行微调，使其能够学习到受访者的潜在特征和投票倾向，从而更准确地推断缺失的投票选择。通过微调，LLM可以更好地适应特定调查数据集的分布，并减少对先验知识的依赖。

技术框架：整体框架包括数据预处理、模型选择与微调、以及性能评估三个主要阶段。首先，对德国纵向选举研究的数据进行清洗和整理，构建用于微调的数据集。然后，选择合适的LLM（如3B到8B的开源模型），并使用监督学习的方式在已有的部分调查回复数据上进行微调。最后，使用不同的评估指标，如个体预测准确率和群体分布还原度，来评估微调后LLM的性能。

关键创新：该研究的关键创新在于探索了使用微调后的LLM来处理调查非回应问题，特别是在只有有偏便利样本可用的情况下。与传统的统计方法和零样本LLM相比，微调后的LLM能够更好地捕捉数据中的复杂关系，并提高预测的准确性。此外，该研究还比较了不同便利样本对微调效果的影响，为实际应用提供了指导。

关键设计：在模型微调过程中，采用了监督学习的方式，使用已有的部分调查回复数据作为训练集。损失函数采用交叉熵损失函数，优化器采用AdamW。为了防止过拟合，采用了dropout和权重衰减等正则化技术。此外，还探索了不同的微调策略，如全参数微调和LoRA微调，以平衡性能和计算成本。

📊 实验亮点

实验结果表明，在数据完全随机缺失的情况下，微调后的LLM与表格分类器（如CatBoost）性能相当，优于零样本方法。更重要的是，当只有有偏便利样本可用时，微调后的LLM在个体预测和群体分布还原方面通常优于零样本方法和表格方法，表明其在处理实际调查数据中的优势。

🎯 应用场景

该研究成果可应用于各种调查研究领域，尤其是在面临高成本概率样本和系统性数据缺失的情况下。通过利用易于获取的子群体数据微调LLM，可以更经济高效地进行选举预测、市场调研和社会科学研究，并提高数据分析的准确性和可靠性，为政策制定提供更可靠的依据。

📄 摘要（原文）

Survey researchers face two key challenges: the rising costs of probability samples and missing data (e.g., non-response or attrition), which can undermine inference and increase the use of convenience samples. Recent work explores using large language models (LLMs) to simulate respondents via persona-based prompts, often without labeled data. We study a more practical setting where partial survey responses exist: we fine-tune LLMs on available data to impute self-reported vote choice under both random and systematic nonresponse, using the German Longitudinal Election Study. We compare zero-shot prompting and supervised fine-tuning against tabular classifiers (e.g., CatBoost) and test how different convenience samples (e.g., students) used for fine-tuning affect generalization. Our results show that when data are missing completely at random, fine-tuned LLMs match tabular classifiers but outperform zero-shot approaches. When only biased convenience samples are available, fine-tuning small (3B to 8B) open-source LLMs can recover both individual-level predictions and population-level distributions more accurately than zero-shot and often better than tabular methods. This suggests fine-tuned LLMs offer a promising strategy for researchers working with non-probability samples or systematic missingness, and may enable new survey designs requiring only easily accessible subpopulations.

Learning from Convenience Samples: A Case Study on Fine-Tuning LLMs for Survey Non-response in the German Longitudinal Election Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册