Near-real-time Earthquake-induced Fatality Estimation using Crowdsourced Data and Large-Language Models
作者: Chenguang Wang, Davis Engler, Xuechun Li, James Hou, David J. Wald, Kishor Jaiswal, Susu Xu
分类: cs.CL, cs.AI, cs.CY, cs.LG
发布日期: 2023-12-04
备注: 10 pages, 8 figures
💡 一句话要点
利用众包数据和大型语言模型,实现近实时地震伤亡估计
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地震灾害 伤亡估计 大型语言模型 众包数据 自然语言处理 应急响应 真值发现
📋 核心要点
- 传统灾害人员伤亡估计依赖人工收集媒体报告,耗时且延迟高;现有社交媒体方法难以处理多语言复杂语义和冲突信息。
- 利用大型语言模型,设计分层伤亡提取模型,从社交媒体提取伤亡信息;结合物理约束和动态真值发现,从噪声数据中推断真实伤亡。
- 通过2021-2022年全球地震事件的实时测试,验证了框架的有效性,在速度和准确性上与USGS手动方法相当。
📝 摘要(中文)
本文提出了一种端到端框架,旨在利用多语言众包社交媒体,显著提高全球地震造成的人员伤亡预测的及时性和准确性。该框架集成了:(1)一个基于大型语言模型、提示设计和少样本学习构建的分层伤亡提取模型,用于从社交媒体中检索定量的人员伤亡声明;(2)一个物理约束感知的动态真值发现模型,用于从大量嘈杂且可能冲突的人员伤亡声明中发现真实的伤亡情况;(3)一个贝叶斯更新损失预测模型,用于使用发现的真值动态更新最终的损失估计。我们在2021年和2022年的一系列全球地震事件中实时测试了该框架,结果表明,我们的框架简化了伤亡数据检索,在速度和准确性上与美国地质调查局(USGS)的手动方法相当。
🔬 方法详解
问题定义:论文旨在解决地震发生后,快速、准确地估计人员伤亡数量的问题。现有方法,如人工收集媒体报告,速度慢、延迟高;基于关键词匹配和主题建模的社交媒体信息提取方法,难以处理多语言、复杂语义以及社交媒体上大量未经证实的、相互冲突的信息,导致估计结果不准确。
核心思路:论文的核心思路是利用大型语言模型强大的语义理解能力,结合众包的社交媒体数据,构建一个端到端的框架,实现近实时的地震伤亡估计。通过从大量噪声数据中提取、清洗和验证信息,动态更新伤亡估计,从而提高估计的及时性和准确性。
技术框架:该框架包含三个主要模块:(1)分层伤亡提取模型:利用大型语言模型和提示工程,从多语言社交媒体文本中提取定量的人员伤亡声明。(2)物理约束感知的动态真值发现模型:该模型考虑物理约束(例如,伤亡人数不可能为负),并使用动态真值发现算法,从大量噪声和冲突的伤亡声明中推断出真实的伤亡情况。(3)贝叶斯更新损失预测模型:该模型使用发现的真值动态更新最终的损失估计,并利用贝叶斯方法来量化估计的不确定性。
关键创新:该论文的关键创新在于:(1)将大型语言模型应用于地震伤亡估计,利用其强大的语义理解能力,克服了传统方法在处理多语言、复杂语义数据方面的局限性。(2)提出了物理约束感知的动态真值发现模型,有效地从大量噪声和冲突的社交媒体数据中提取可靠的信息。(3)构建了一个端到端的框架,实现了近实时的伤亡估计,为应急响应提供及时信息。
关键设计:论文中使用了大型语言模型,具体模型类型未知。提示工程的设计对于从社交媒体文本中提取准确的伤亡信息至关重要,但具体提示内容未知。动态真值发现模型中,物理约束的具体形式以及真值发现算法的细节未知。贝叶斯更新损失预测模型中,先验分布的选择和更新规则未知。
📊 实验亮点
该框架在2021年和2022年的一系列全球地震事件中进行了实时测试,结果表明,该框架在伤亡数据检索的速度和准确性上与美国地质调查局(USGS)的手动方法相当。这意味着该框架能够以更快的速度提供可靠的伤亡估计,为应急响应提供更及时的信息。具体性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于地震等自然灾害发生后的应急响应。通过近实时地估计人员伤亡情况,可以帮助救援机构快速评估灾情,合理分配资源,提高救援效率,从而减少人员伤亡。该方法也可推广到其他类型的灾害事件,具有重要的社会价值。
📄 摘要(原文)
When a damaging earthquake occurs, immediate information about casualties is critical for time-sensitive decision-making by emergency response and aid agencies in the first hours and days. Systems such as Prompt Assessment of Global Earthquakes for Response (PAGER) by the U.S. Geological Survey (USGS) were developed to provide a forecast within about 30 minutes of any significant earthquake globally. Traditional systems for estimating human loss in disasters often depend on manually collected early casualty reports from global media, a process that's labor-intensive and slow with notable time delays. Recently, some systems have employed keyword matching and topic modeling to extract relevant information from social media. However, these methods struggle with the complex semantics in multilingual texts and the challenge of interpreting ever-changing, often conflicting reports of death and injury numbers from various unverified sources on social media platforms. In this work, we introduce an end-to-end framework to significantly improve the timeliness and accuracy of global earthquake-induced human loss forecasting using multi-lingual, crowdsourced social media. Our framework integrates (1) a hierarchical casualty extraction model built upon large language models, prompt design, and few-shot learning to retrieve quantitative human loss claims from social media, (2) a physical constraint-aware, dynamic-truth discovery model that discovers the truthful human loss from massive noisy and potentially conflicting human loss claims, and (3) a Bayesian updating loss projection model that dynamically updates the final loss estimation using discovered truths. We test the framework in real-time on a series of global earthquake events in 2021 and 2022 and show that our framework streamlines casualty data retrieval, achieving speed and accuracy comparable to manual methods by USGS.