Lexara: A User-Centered Toolkit for Evaluating Large Language Models for Conversational Visual Analytics

📄 arXiv: 2603.05832v1 📥 PDF

作者: Srishti Palani, Vidya Setlur

分类: cs.HC, cs.AI

发布日期: 2026-03-06


💡 一句话要点

Lexara:一个以用户为中心的工具包,用于评估会话式可视化分析的大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 会话式可视化分析 大型语言模型 评估工具包 用户中心设计 可解释性评估

📋 核心要点

  1. 现有CVA的LLM评估方法需要编程知识,忽略现实复杂性,且缺乏多模态输出的可解释指标。
  2. Lexara工具包通过用户调研,构建测试用例,并设计可解释指标,实现CVA的LLM评估。
  3. 开发者日记研究表明,Lexara能有效指导模型和提示选择,提升CVA系统的性能。

📝 摘要(中文)

大型语言模型(LLMs)正在通过自然语言实现数据分析,从而改变会话式可视化分析(CVA)。然而,评估LLMs在CVA中的应用仍然面临挑战:需要编程专业知识,忽略了现实世界的复杂性,并且缺乏针对多格式(可视化和文本)输出的可解释指标。通过对22位CVA开发者和16位最终用户的访谈,我们确定了使用案例、评估标准和工作流程。我们提出了Lexara,一个以用户为中心的CVA评估工具包,它将这些见解转化为:(i)涵盖真实场景的测试用例;(ii)使用基于规则和LLM-as-a-Judge方法的可解释指标,涵盖可视化质量(数据保真度、语义对齐、功能正确性、设计清晰度)和语言质量(事实基础、分析推理、会话连贯性);以及(iii)一个交互式工具包,无需编程专业知识即可实现实验设置以及多格式和多层次的结果探索。我们对最初22位CVA开发者中的6位进行了为期两周的日记研究。他们的反馈证明了Lexara在指导适当的模型和提示选择方面的有效性。

🔬 方法详解

问题定义:论文旨在解决会话式可视化分析(CVA)中,如何有效评估大型语言模型(LLMs)的问题。现有方法存在三个主要痛点:一是需要专业的编程知识,使得非专业人士难以进行评估;二是忽略了现实世界场景的复杂性,评估结果与实际应用存在差距;三是缺乏针对CVA多模态输出(文本和可视化)的可解释性评估指标,难以定位问题。

核心思路:论文的核心思路是以用户为中心,通过访谈CVA开发者和最终用户,了解他们的实际需求、评估标准和工作流程。基于这些信息,构建一个易于使用、能够模拟真实场景、并提供可解释评估指标的工具包,从而帮助开发者选择合适的LLM和提示,提升CVA系统的性能。

技术框架:Lexara工具包包含三个主要组成部分:1) 基于真实场景的测试用例集;2) 可解释的评估指标,涵盖可视化质量(数据保真度、语义对齐、功能正确性、设计清晰度)和语言质量(事实基础、分析推理、会话连贯性),采用基于规则和LLM-as-a-Judge的方法;3) 交互式工具包,提供实验设置和多格式、多层次的结果探索功能。

关键创新:Lexara的关键创新在于其以用户为中心的评估方法和多维度的可解释性评估指标。与传统的评估方法相比,Lexara更贴近实际应用场景,能够提供更全面、更深入的评估结果,帮助开发者更好地理解LLM在CVA中的表现。

关键设计:评估指标的设计是关键。可视化质量的评估指标包括数据保真度(确保可视化准确反映数据)、语义对齐(确保可视化与用户查询的语义一致)、功能正确性(确保可视化能够正确执行用户请求的功能)和设计清晰度(确保可视化易于理解)。语言质量的评估指标包括事实基础(确保LLM的回答基于事实)、分析推理(确保LLM能够进行有效的分析推理)和会话连贯性(确保LLM能够保持对话的连贯性)。LLM-as-a-Judge方法利用LLM本身来评估其他LLM的输出,通过精心设计的提示工程,可以获得更客观、更全面的评估结果。

📊 实验亮点

通过对6位CVA开发者进行为期两周的日记研究,结果表明Lexara工具包能够有效指导开发者选择合适的LLM和提示,从而提升CVA系统的性能。开发者反馈Lexara提供的可解释性评估指标能够帮助他们快速定位问题,并进行针对性的优化。该研究验证了Lexara工具包的实用性和有效性。

🎯 应用场景

Lexara工具包可广泛应用于各种会话式可视化分析系统,例如商业智能、数据探索、教育等领域。它可以帮助开发者快速评估和选择合适的LLM,优化系统性能,提升用户体验。未来,该工具包可以扩展到支持更多类型的可视化和语言模型,并集成到CVA系统的开发流程中,实现自动化评估和优化。

📄 摘要(原文)

Large Language Models (LLMs) are transforming Conversational Visual Analytics (CVA) by enabling data analysis through natural language. However, evaluating LLMs for CVA remains a challenge: requiring programming expertise, overlooking real-world complexity, and lacking interpretable metrics for multi-format (visualizations and text) outputs. Through interviews with 22 CVA developers and 16 end-users, we identified use cases, evaluation criteria and workflows. We present Lexara, a user-centered evaluation toolkit for CVA that operationalizes these insights into: (i) test cases spanning real-world scenarios; (ii) interpretable metrics covering visualization quality (data fidelity, semantic alignment, functional correctness, design clarity) and language quality (factual grounding, analytical reasoning, conversational coherence) using rule-based and LLM-as-a-Judge methods; and (iii) an interactive toolkit enabling experimental setup and multi-format and multi-level exploration of results without programming expertise. We conducted a two-week diary study with six CVA developers, drawn from our initial cohort of 22. Their feedback demonstrated Lexara's effectiveness for guiding appropriate model and prompt selection.