Using LLMs to create analytical datasets: A case study of reconstructing the historical memory of Colombia
作者: David Anderson, Galia Benitez, Margret Bjarnadottir, Shriyan Reyya
分类: cs.CL, cs.CY
发布日期: 2025-09-03
💡 一句话要点
利用大型语言模型重建哥伦比亚历史记忆,创建分析数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 历史记忆 自然语言处理 文本分析 哥伦比亚 暴力事件 政策分析
📋 核心要点
- 哥伦比亚长期缺乏系统性的暴力事件记录,导致历史研究受限,公开信息不足。
- 本研究利用GPT模型阅读并分析大量西班牙语新闻文章,构建关于哥伦比亚暴力事件的分析数据集。
- 通过对生成的数据集进行分析,研究了暴力与古柯作物根除之间的关系,为政策分析提供支持。
📝 摘要(中文)
哥伦比亚经历了数十年的武装冲突,但直到最近,系统性地记录暴力事件才成为哥伦比亚政府的优先事项。这导致缺乏公开的冲突信息,进而导致缺乏历史记录。本研究利用大型语言模型(LLM)GPT,阅读并回答关于超过20万篇西班牙语暴力相关新闻文章的问题,从而为哥伦比亚的历史记忆做出贡献。我们使用生成的数据集进行描述性分析,并研究暴力与古柯作物根除之间的关系,提供此类数据可以支持的政策分析示例。我们的研究表明,LLM通过支持对大型文本语料库进行以前不可行的深度检查,开辟了新的研究机会。
🔬 方法详解
问题定义:论文旨在解决哥伦比亚缺乏系统性暴力事件记录的问题。现有方法依赖人工收集和整理,效率低下且难以覆盖大规模数据。这阻碍了对哥伦比亚历史冲突的深入研究和政策制定。
核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言处理能力,自动从大量新闻文章中提取关键信息,构建结构化的分析数据集。通过让LLM阅读并回答关于暴力事件的问题,可以高效地获取所需信息。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 收集超过20万篇西班牙语暴力相关新闻文章;2) 使用GPT模型阅读这些文章;3) 针对每篇文章,向GPT模型提出关于暴力事件的问题,例如时间、地点、受害者等;4) 将GPT模型的回答整理成结构化的数据集;5) 使用生成的数据集进行描述性分析和政策分析。
关键创新:该研究的关键创新在于将LLM应用于历史事件的重建和分析。与传统的人工方法相比,LLM能够处理更大规模的文本数据,并自动提取关键信息,大大提高了效率和覆盖范围。此外,该研究还展示了如何利用LLM生成的数据集进行政策分析,为相关研究提供了新的思路。
关键设计:论文的关键设计包括:1) 选择合适的LLM模型(GPT);2) 设计有效的问题,引导LLM提取所需信息;3) 设计合理的数据结构,存储和管理提取的信息;4) 选择合适的分析方法,从数据集中提取有意义的结论。具体参数设置和损失函数等技术细节未知。
📊 实验亮点
该研究成功利用GPT模型处理了超过20万篇西班牙语新闻文章,构建了关于哥伦比亚暴力事件的分析数据集。通过对该数据集的分析,研究人员发现了暴力与古柯作物根除之间的关系,为政策制定提供了参考。具体性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于历史事件重建、社会科学研究、政策分析等领域。通过利用LLM处理大规模文本数据,可以更高效地获取信息,为相关研究提供数据支持。未来,该方法可以推广到其他国家和地区,用于研究类似的历史事件和社会问题,具有重要的社会价值和学术意义。
📄 摘要(原文)
Colombia has been submerged in decades of armed conflict, yet until recently, the systematic documentation of violence was not a priority for the Colombian government. This has resulted in a lack of publicly available conflict information and, consequently, a lack of historical accounts. This study contributes to Colombia's historical memory by utilizing GPT, a large language model (LLM), to read and answer questions about over 200,000 violence-related newspaper articles in Spanish. We use the resulting dataset to conduct both descriptive analysis and a study of the relationship between violence and the eradication of coca crops, offering an example of policy analyses that such data can support. Our study demonstrates how LLMs have opened new research opportunities by enabling examinations of large text corpora at a previously infeasible depth.