Active Preference Inference using Language Models and Probabilistic Reasoning
作者: Wasu Top Piriyakulkij, Volodymyr Kuleshov, Kevin Ellis
分类: cs.CL, cs.AI, cs.LG
发布日期: 2023-12-19 (更新: 2024-06-26)
💡 一句话要点
提出基于语言模型和概率推理的主动偏好推断算法,提升交互效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动偏好推断 大型语言模型 概率推理 熵减少 用户交互
📋 核心要点
- 现有LLM在主动偏好推断中提问效率低,导致用户交互过多,影响系统可用性。
- 提出一种推理时算法,利用概率模型和LLM提示,生成信息量更大的问题。
- 实验表明,该算法在网络购物场景中,能以更少的交互次数实现更好的任务性能。
📝 摘要(中文)
主动推断用户偏好,例如通过提问,对于任何面向人类的决策系统都至关重要。主动推断使这些系统能够适应并个性化细致的个人偏好。为了使指令调整的大型语言模型(LLM)具备这种能力,可以提示它们向用户提问以推断其偏好,从而将语言模型转变为更强大、交互式的系统。然而,这些模型在开箱即用时,提取偏好的效率不高:它们生成的问题信息量不足,需要大量的用户交互,从而阻碍了下游系统的可用性。在这项工作中,我们介绍了一种推理时算法,该算法通过使用信息量更大的问题来帮助LLM快速推断偏好。我们的算法使用一个概率模型,其条件分布由提示LLM定义,并返回优化预期熵和预期模型变化的问题。在简化的交互式网络购物环境中,使用真实产品项目的实验结果表明,配备我们熵减少算法的LLM在任务性能上优于具有相同底层LLM的基线,同时使用的用户交互更少。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在主动偏好推断中效率低下的问题。现有方法生成的提问信息量不足,需要大量的用户交互才能准确推断用户偏好,这严重影响了交互系统的可用性。
核心思路:论文的核心思路是利用概率模型来指导LLM生成更具信息量的提问。通过优化预期熵和预期模型变化,选择能够最大程度减少不确定性和快速更新用户偏好模型的问题。这种主动学习的方法旨在减少所需的交互次数,提高偏好推断的效率。
技术框架:整体框架包含以下几个主要步骤:1) 使用LLM生成候选问题;2) 构建一个概率模型,该模型基于LLM的输出来表示用户偏好的后验分布;3) 使用该概率模型计算每个候选问题的预期熵和预期模型变化;4) 选择优化预期熵和预期模型变化的问题,并向用户提问;5) 根据用户的回答更新概率模型,并重复步骤1-4,直到偏好被充分推断。
关键创新:该方法最重要的创新在于将LLM与概率推理相结合,实现主动偏好推断。与直接使用LLM生成问题相比,该方法通过概率模型来评估问题的信息量,并选择最优问题,从而显著提高了提问效率。此外,该方法还考虑了预期模型变化,鼓励探索能够快速更新用户偏好模型的问题。
关键设计:论文使用LLM作为条件分布的定义器,通过prompt工程来控制LLM的输出。概率模型采用贝叶斯框架,利用用户的回答来更新用户偏好的后验分布。预期熵和预期模型变化的计算依赖于对用户回答的预测,这些预测也由LLM生成。具体的损失函数和网络结构(如果使用)未知。
📊 实验亮点
实验结果表明,配备该熵减少算法的LLM在交互式网络购物环境中,能够以更少的用户交互次数达到与基线方法相当甚至更好的任务性能。具体的性能提升数据未知,但论文强调了在相同底层LLM的基础上,该算法能够显著提高偏好推断的效率。
🎯 应用场景
该研究成果可应用于各种需要主动推断用户偏好的场景,例如个性化推荐系统、智能助手、产品配置工具等。通过更高效地了解用户需求,可以提升用户体验,提高系统效率,并为用户提供更精准的服务。未来,该方法有望扩展到更复杂的偏好推断任务,例如涉及多个目标和约束的决策问题。
📄 摘要(原文)
Actively inferring user preferences, for example by asking good questions, is important for any human-facing decision-making system. Active inference allows such systems to adapt and personalize themselves to nuanced individual preferences. To enable this ability for instruction-tuned large language models (LLMs), one may prompt them to ask users questions to infer their preferences, transforming the language models into more robust, interactive systems. However, out of the box, these models are not efficient at extracting preferences: the questions they generate are not informative, requiring a high number of user interactions and impeding the usability of the downstream system. In this work, we introduce an inference-time algorithm that helps LLMs quickly infer preferences by using more informative questions. Our algorithm uses a probabilistic model whose conditional distributions are defined by prompting an LLM, and returns questions that optimize expected entropy and expected model change. Results in a simplified interactive web shopping setting with real product items show that an LLM equipped with our entropy reduction algorithm outperforms baselines with the same underlying LLM on task performance while using fewer user interactions.