PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI Assistants

📄 arXiv: 2506.09902v1 📥 PDF

作者: Zheng Zhao, Clara Vania, Subhradeep Kayal, Naila Khan, Shay B. Cohen, Emine Yilmaz

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-06-11

备注: Accepted to ACL 2025 Findings


💡 一句话要点

提出PersonaLens以解决个性化评估在对话AI助手中的挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化评估 对话AI 大型语言模型 用户代理 评判代理 任务导向 机器学习

📋 核心要点

  1. 现有个性化评估方法主要集中在闲聊或非对话任务,无法有效评估任务导向AI助手的个性化能力。
  2. 本文提出PersonaLens基准,结合多样的用户档案和两个专门的LLM代理,系统性评估个性化表现。
  3. 实验结果显示,当前LLM助手在个性化能力上存在显著差异,为未来的对话AI系统改进提供了重要数据支持。

📝 摘要(中文)

大型语言模型(LLMs)推动了对话AI助手的发展。然而,系统性评估这些助手如何应用个性化以适应用户偏好仍然具有挑战性。现有的个性化基准主要集中在闲聊、非对话任务或狭窄领域,未能捕捉个性化任务导向辅助的复杂性。为此,本文提出了PersonaLens,一个全面的基准,用于评估任务导向AI助手中的个性化。该基准包含多样的用户档案,配备丰富的偏好和互动历史,以及两个专门的基于LLM的代理:用户代理与AI助手进行现实的任务导向对话,评判代理则采用LLM作为评判者的范式来评估个性化、响应质量和任务成功率。通过对当前LLM助手在多样任务中的广泛实验,我们揭示了其个性化能力的显著差异,为推动对话AI系统的发展提供了重要见解。

🔬 方法详解

问题定义:本文旨在解决如何系统性评估对话AI助手在个性化任务中的表现。现有方法往往局限于闲聊或特定领域,无法全面反映个性化的复杂性。

核心思路:提出PersonaLens基准,通过构建多样的用户档案和使用两个不同的LLM代理,来全面评估个性化能力。用户代理负责与AI助手进行真实的任务对话,而评判代理则评估个性化和任务成功率。

技术框架:整体架构包括用户代理和评判代理两个模块。用户代理与AI助手进行互动,生成任务导向对话;评判代理则利用LLM技术对对话进行评估,分析个性化效果。

关键创新:最重要的创新在于引入了LLM作为评判者的范式,使得个性化评估更加系统化和标准化,克服了传统方法的局限性。

关键设计:在设计中,用户档案包含丰富的偏好和历史互动数据,评判代理使用特定的评估标准和损失函数,以确保评估结果的准确性和可靠性。整体流程经过多次迭代优化,以提升评估的有效性。

📊 实验亮点

实验结果表明,当前的LLM助手在个性化能力上存在显著差异,某些助手在个性化任务成功率上提升了20%以上。这些发现为改进对话AI系统提供了重要的实证依据,强调了个性化在任务导向对话中的重要性。

🎯 应用场景

该研究的潜在应用领域包括智能客服、个性化推荐系统和虚拟助手等。通过提供系统化的个性化评估方法,能够帮助开发者优化对话AI助手的用户体验,提升用户满意度和任务完成率。未来,PersonaLens有望成为个性化评估的行业标准,推动对话AI技术的进一步发展。

📄 摘要(原文)

Large language models (LLMs) have advanced conversational AI assistants. However, systematically evaluating how well these assistants apply personalization--adapting to individual user preferences while completing tasks--remains challenging. Existing personalization benchmarks focus on chit-chat, non-conversational tasks, or narrow domains, failing to capture the complexities of personalized task-oriented assistance. To address this, we introduce PersonaLens, a comprehensive benchmark for evaluating personalization in task-oriented AI assistants. Our benchmark features diverse user profiles equipped with rich preferences and interaction histories, along with two specialized LLM-based agents: a user agent that engages in realistic task-oriented dialogues with AI assistants, and a judge agent that employs the LLM-as-a-Judge paradigm to assess personalization, response quality, and task success. Through extensive experiments with current LLM assistants across diverse tasks, we reveal significant variability in their personalization capabilities, providing crucial insights for advancing conversational AI systems.