Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions

📄 arXiv: 2603.04191v1 📥 PDF

作者: Qianyun Guo, Yibo Li, Yue Liu, Bryan Hooi

分类: cs.AI

发布日期: 2026-03-04

🔗 代码/项目: GITHUB


💡 一句话要点

提出RealPref基准,评估LLM在个性化用户交互中长期偏好跟随能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化推荐 长期偏好建模 大型语言模型 用户画像 人机交互

📋 核心要点

  1. 现有方法难以评估LLM在长期个性化交互中对用户偏好的真实跟随能力。
  2. RealPref基准通过模拟真实用户偏好和交互历史,评估LLM的偏好理解和泛化能力。
  3. 实验表明,LLM在长上下文和隐式偏好表达下性能显著下降,泛化能力面临挑战。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用作个人助理,用户在长期交互中分享复杂多样的偏好。然而,评估LLM在真实的长期情境中遵循这些偏好的能力仍然不足。本文提出了RealPref,一个用于评估个性化用户-LLM交互中真实偏好跟随的基准。RealPref包含100个用户画像,1300个个性化偏好,四种偏好表达方式(从显式到隐式),以及长期的交互历史。它包括三种类型的测试问题(多项选择、判断题和开放式问题),并为LLM作为评判者的评估提供了详细的评分标准。结果表明,随着上下文长度的增加和偏好表达变得更加隐式,LLM的性能显著下降,并且将用户偏好理解推广到未见过的场景带来了进一步的挑战。RealPref和这些发现为未来开发能够更好地适应个人需求的用户感知LLM助手奠定了基础。代码可在https://github.com/GG14127/RealPref 获取。

🔬 方法详解

问题定义:论文旨在解决如何有效评估大型语言模型(LLM)在长期个性化用户交互中,对用户偏好进行理解、记忆和遵循的问题。现有方法缺乏真实场景的模拟,难以衡量LLM在复杂和动态偏好下的表现。现有基准测试通常关注短期交互或显式偏好,无法反映LLM在长期交互中处理隐式偏好和偏好演变的能力。

核心思路:论文的核心思路是构建一个更贴近真实用户交互场景的基准测试RealPref。该基准包含具有不同偏好的用户画像、长期的交互历史以及多种偏好表达方式(显式和隐式)。通过模拟真实的用户-LLM交互,RealPref能够更全面地评估LLM在长期偏好跟随方面的能力。这样设计的目的是为了更准确地反映LLM在实际应用中的表现,并为未来的研究提供更可靠的评估平台。

技术框架:RealPref基准测试主要包含以下几个关键组成部分:1) 用户画像:包含100个不同的用户画像,每个用户画像都定义了一系列个性化的偏好。2) 偏好表达:用户偏好通过四种不同的方式表达,从显式(例如,明确声明喜欢某种电影类型)到隐式(例如,通过历史交互推断用户偏好)。3) 交互历史:每个用户画像都包含长期的交互历史,模拟用户与LLM的持续对话。4) 测试问题:包含三种类型的测试问题(多项选择、判断题和开放式问题),用于评估LLM对用户偏好的理解和遵循程度。5) 评估指标:提供详细的评分标准,用于LLM作为评判者进行评估。

关键创新:RealPref的主要创新在于其真实性和长期性。它通过模拟真实的用户偏好和交互历史,更准确地反映了LLM在实际应用中的表现。与现有基准测试相比,RealPref更加关注长期交互和隐式偏好表达,这使得它能够更全面地评估LLM在长期偏好跟随方面的能力。此外,RealPref还提供了详细的评分标准,使得评估过程更加客观和可重复。

关键设计:RealPref的关键设计包括:1) 多样化的用户画像:确保用户偏好的多样性,从而更全面地评估LLM的泛化能力。2) 多种偏好表达方式:模拟真实场景中用户偏好表达的多样性,包括显式和隐式表达。3) 长期的交互历史:模拟用户与LLM的长期交互,从而评估LLM对偏好演变的理解和适应能力。4) 详细的评分标准:提供客观和可重复的评估方法,确保评估结果的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在RealPref基准测试中面临显著挑战。随着上下文长度的增加,LLM的性能显著下降。当偏好表达变得更加隐式时,LLM的性能也明显降低。此外,LLM在将用户偏好理解推广到未见过的场景时表现不佳。这些结果表明,现有LLM在长期偏好跟随方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于开发更智能、更个性化的AI助手,例如智能客服、个性化推荐系统和虚拟伴侣。通过更好地理解和遵循用户的长期偏好,这些AI系统可以提供更贴合用户需求的个性化服务,提升用户体验和满意度。未来,该研究还可以促进人机交互领域的发展,使AI系统能够更好地适应人类的需求和习惯。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly serving as personal assistants, where users share complex and diverse preferences over extended interactions. However, assessing how well LLMs can follow these preferences in realistic, long-term situations remains underexplored. This work proposes RealPref, a benchmark for evaluating realistic preference-following in personalized user-LLM interactions. RealPref features 100 user profiles, 1300 personalized preferences, four types of preference expression (ranging from explicit to implicit), and long-horizon interaction histories. It includes three types of test questions (multiple-choice, true-or-false, and open-ended), with detailed rubrics for LLM-as-a-judge evaluation. Results indicate that LLM performance significantly drops as context length grows and preference expression becomes more implicit, and that generalizing user preference understanding to unseen scenarios poses further challenges. RealPref and these findings provide a foundation for future research to develop user-aware LLM assistants that better adapt to individual needs. The code is available at https://github.com/GG14127/RealPref.