Understanding and Meeting Practitioner Needs When Measuring Representational Harms Caused by LLM-Based Systems

📄 arXiv: 2506.04482v1 📥 PDF

作者: Emma Harvey, Emily Sheng, Su Lin Blodgett, Alexandra Chouldechova, Jean Garcia-Gathright, Alexandra Olteanu, Hanna Wallach

分类: cs.CY, cs.CL

发布日期: 2025-06-04

备注: Findings of the Association for Computational Linguistics: ACL 2025


💡 一句话要点

提出针对LLM系统的代表性伤害测量工具的改进建议

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 代表性伤害 测量工具 自然语言处理 从业者需求 实用测量 伦理评估

📋 核心要点

  1. 现有的测量工具未能有效满足从业者在评估LLM系统时的实际需求,导致其使用受限。
  2. 通过对从业者的访谈,论文提出了针对测量工具的改进建议,以提高其实用性和可用性。
  3. 研究表明,许多从业者因工具与需求不匹配或受到实际障碍而无法有效使用现有测量工具。

📝 摘要(中文)

自然语言处理(NLP)研究社区已公开了多种测量大型语言模型(LLM)系统造成的代表性伤害的工具。这些工具包括数据集、指标和工具等。本文通过对12名从业者的半结构化访谈,探讨了这些工具在满足从业者需求方面的有效性。研究发现,从业者在使用这些工具时面临两类挑战:一是工具未能有效测量从业者所需的内容,二是即使工具有用,实际应用中也受到各种障碍的影响。基于测量理论和实用测量,本文提出了针对这些挑战的建议,以更好地满足从业者的需求。

🔬 方法详解

问题定义:本文旨在解决现有测量工具在评估LLM系统时未能满足从业者需求的问题。现有方法的痛点在于工具的有效性和适用性不足,导致从业者无法有效使用。

核心思路:论文通过对从业者的访谈,识别出工具使用中的挑战,并提出基于测量理论的改进建议,以更好地对接从业者的实际需求。

技术框架:研究采用半结构化访谈的方法,收集从业者的反馈,分析工具的有效性与使用障碍,并基于这些数据提出改进方案。

关键创新:最重要的创新在于识别了工具使用中的两类挑战,并提出了针对性的解决方案,强调了从业者需求与工具设计之间的对齐。

关键设计:在研究中,重点关注了工具的测量指标、数据集的构建及其与从业者需求的匹配程度,确保提出的建议具有实用性和可操作性。

📊 实验亮点

研究结果显示,许多从业者在使用现有测量工具时面临显著障碍,导致工具的实际应用率低于预期。通过访谈,识别出的两类挑战为后续工具改进提供了重要依据,强调了从业者需求的重要性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、人工智能伦理和社会影响评估等。通过改进测量工具,能够帮助从业者更有效地评估和减少LLM系统造成的代表性伤害,从而推动更公平和透明的AI系统发展。

📄 摘要(原文)

The NLP research community has made publicly available numerous instruments for measuring representational harms caused by large language model (LLM)-based systems. These instruments have taken the form of datasets, metrics, tools, and more. In this paper, we examine the extent to which such instruments meet the needs of practitioners tasked with evaluating LLM-based systems. Via semi-structured interviews with 12 such practitioners, we find that practitioners are often unable to use publicly available instruments for measuring representational harms. We identify two types of challenges. In some cases, instruments are not useful because they do not meaningfully measure what practitioners seek to measure or are otherwise misaligned with practitioner needs. In other cases, instruments - even useful instruments - are not used by practitioners due to practical and institutional barriers impeding their uptake. Drawing on measurement theory and pragmatic measurement, we provide recommendations for addressing these challenges to better meet practitioner needs.