Evaluating LLMs for Police Decision-Making: A Framework Based on Police Action Scenarios
作者: Sangyub Lee, Heedou Kim, Hyeoncheol Kim
分类: cs.CL, cs.AI
发布日期: 2026-01-07
备注: This work was accepted at AAAI 2026 social good track
💡 一句话要点
提出PAS框架,评估LLM在警务决策中的应用,解决现有评估体系缺失问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 警务决策 评估框架 QA数据集 人工智能
📋 核心要点
- 现有LLM在警务操作中的应用缺乏针对性评估框架,可能导致非法逮捕等严重问题。
- 论文提出PAS框架,通过构建警务行动场景和QA数据集,系统评估LLM的决策能力。
- 实验表明,现有商业LLM在警务相关任务中表现不佳,尤其是在提供基于事实的建议方面。
📝 摘要(中文)
大型语言模型(LLM)在警务行动中的应用日益增长,但目前缺乏专门针对警务行动的评估框架。虽然LLM的回答在法律上可能并非总是错误,但未经验证的使用仍可能导致严重问题,例如非法逮捕和不当的证据收集。为了解决这个问题,我们提出了PAS(Police Action Scenarios),这是一个涵盖整个评估过程的系统框架。应用该框架,我们从8000多份官方文件中构建了一个新的QA数据集,并建立了通过警察专家判断进行统计分析验证的关键指标。实验结果表明,商业LLM在新的警务相关任务中表现不佳,尤其是在提供基于事实的建议方面。这项研究强调了需要一个可扩展的评估框架,以确保可靠的AI驱动的警务行动。我们发布了我们的数据和提示模板。
🔬 方法详解
问题定义:论文旨在解决LLM在警务决策应用中缺乏有效评估框架的问题。现有方法无法充分评估LLM在警务场景下的表现,存在潜在的法律风险和操作风险,例如不当逮捕和证据收集。因此,需要一个专门的评估框架来确保LLM在警务领域的安全可靠应用。
核心思路:论文的核心思路是构建一个基于警务行动场景的评估框架PAS(Police Action Scenarios)。该框架通过模拟真实的警务场景,并结合QA数据集,系统地评估LLM在不同警务任务中的表现。通过专家评估和统计分析,验证评估指标的有效性,从而为LLM在警务领域的应用提供可靠的评估依据。
技术框架:PAS框架包含以下主要阶段:1) 场景构建:基于超过8000份官方文件,构建涵盖各种警务行动的场景。2) QA数据集构建:针对每个场景,构建问题和答案对,用于评估LLM的回答质量。3) 指标建立:建立关键指标,用于衡量LLM在警务任务中的表现,例如准确性、法律合规性等。4) 实验评估:使用构建的QA数据集,对商业LLM进行评估。5) 专家验证:通过警察专家的判断,对评估结果进行验证和分析。
关键创新:论文的关键创新在于提出了PAS框架,这是一个专门针对警务决策的LLM评估框架。与现有通用评估方法不同,PAS框架基于真实的警务场景,并结合警察专家的知识,能够更准确地评估LLM在警务领域的表现。此外,论文还构建了一个新的QA数据集,为LLM在警务领域的评估提供了数据基础。
关键设计:PAS框架的关键设计包括:1) 场景构建:基于官方文件,确保场景的真实性和代表性。2) QA数据集构建:问题设计涵盖不同难度和类型的警务任务。3) 指标建立:指标的选择基于警察专家的建议,并进行统计分析验证。4) 提示模板设计:设计有效的提示模板,以引导LLM生成高质量的回答。
📊 实验亮点
实验结果表明,商业LLM在PAS框架下的警务相关任务中表现不佳,尤其是在提供基于事实的建议方面。这表明现有LLM在警务领域的应用仍存在挑战,需要进一步的研究和改进。该研究强调了针对特定领域构建评估框架的重要性。
🎯 应用场景
该研究成果可应用于警务决策支持系统,辅助警察进行风险评估、案件分析和决策制定。通过PAS框架,可以评估和筛选适合警务应用的LLM,提高警务工作的效率和准确性,降低执法风险,并为AI在公共安全领域的应用提供参考。
📄 摘要(原文)
The use of Large Language Models (LLMs) in police operations is growing, yet an evaluation framework tailored to police operations remains absent. While LLM's responses may not always be legally incorrect, their unverified use still can lead to severe issues such as unlawful arrests and improper evidence collection. To address this, we propose PAS (Police Action Scenarios), a systematic framework covering the entire evaluation process. Applying this framework, we constructed a novel QA dataset from over 8,000 official documents and established key metrics validated through statistical analysis with police expert judgements. Experimental results show that commercial LLMs struggle with our new police-related tasks, particularly in providing fact-based recommendations. This study highlights the necessity of an expandable evaluation framework to ensure reliable AI-driven police operations. We release our data and prompt template.