Exploring the Sensitivity of LLMs' Decision-Making Capabilities: Insights from Prompt Variation and Hyperparameters

📄 arXiv: 2312.17476v1 📥 PDF

作者: Manikanta Loya, Divya Anand Sinha, Richard Futrell

分类: cs.CL

发布日期: 2023-12-29

备注: EMNLP 2023

DOI: 10.18653/v1/2023.findings-emnlp.241


💡 一句话要点

研究提示词与超参数对LLM决策能力的影响,揭示类人探索-利用权衡

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 决策能力 提示词工程 超参数优化 探索-利用权衡

📋 核心要点

  1. 现有研究在评估LLM决策能力时,常忽略超参数和提示词变化带来的影响,导致评估结果可能不准确。
  2. 本研究通过调整提示词和超参数,考察LLM在Horizon决策任务中的表现,分析其决策能力的敏感性。
  3. 实验表明,LLM的决策能力受提示词和温度设置影响,适当调整提示词后,LLM可表现出类人的探索-利用权衡。

📝 摘要(中文)

大型语言模型(LLM)的进步使其被广泛应用于包括决策在内的各种任务。先前的研究从心理学的角度将LLM的决策能力与人类的决策能力进行了比较。然而,这些研究并没有充分考虑到LLM的行为对超参数和提示词变化的敏感性。本研究考察了LLM在Binz和Schulz(2023)研究的Horizon决策任务中的表现,分析了LLM如何响应提示词和超参数的变化。通过对三种具有不同能力的OpenAI语言模型进行实验,我们观察到决策能力会根据输入提示词和温度设置而波动。与之前的发现相反,经过对提示词的简单调整,语言模型表现出类似人类的探索-利用权衡。

🔬 方法详解

问题定义:现有研究在评估大型语言模型(LLM)的决策能力时,往往忽略了模型对超参数(如温度)和提示词变化的敏感性。这导致对LLM决策能力的评估可能存在偏差,无法准确反映其真实水平。此外,先前研究未能充分探索LLM在探索-利用权衡方面的表现。

核心思路:本研究的核心思路是通过系统性地改变提示词和超参数(主要是温度),观察LLM在Horizon决策任务中的表现,从而分析其决策能力的敏感性。通过这种方式,研究旨在揭示LLM在不同设置下的决策行为,并探究其是否能够表现出类似人类的探索-利用权衡。

技术框架:本研究采用Horizon决策任务作为评估LLM决策能力的基准。研究人员使用了三种不同能力的OpenAI语言模型。实验流程包括:1) 设计不同的提示词,引导LLM进行决策;2) 调整温度参数,控制LLM的生成随机性;3) 记录LLM在不同提示词和温度下的决策结果;4) 分析决策结果,评估LLM的决策能力和探索-利用权衡。

关键创新:本研究的关键创新在于强调了LLM决策能力对提示词和超参数的敏感性,并提供了一种系统性的方法来评估这种敏感性。与先前研究相比,本研究更注重控制实验变量,从而更准确地评估LLM的决策能力。此外,研究发现通过简单调整提示词,LLM可以表现出类似人类的探索-利用权衡,这与之前的研究结果有所不同。

关键设计:研究中使用了不同的提示词来引导LLM进行决策,这些提示词在措辞和内容上有所不同,旨在考察LLM对不同提示词的响应。温度参数是控制LLM生成随机性的关键参数,研究人员通过调整温度参数来观察LLM在不同随机性下的决策行为。Horizon决策任务本身的设计也至关重要,它提供了一个可控的环境来评估LLM的探索-利用权衡。

📊 实验亮点

实验结果表明,LLM的决策能力受到提示词和温度设置的显著影响。通过对提示词进行简单调整,LLM能够表现出类似人类的探索-利用权衡。这一发现颠覆了先前研究的结论,表明LLM在适当的引导下可以具备更强的决策能力。具体性能数据未知,但研究强调了提示词工程的重要性。

🎯 应用场景

该研究成果可应用于提升LLM在实际决策场景中的可靠性和可控性。通过了解LLM对提示词和超参数的敏感性,可以更好地设计提示词,优化超参数,从而提高LLM的决策质量。此外,该研究有助于开发更智能的决策支持系统,在金融、医疗等领域辅助人类进行决策。

📄 摘要(原文)

The advancement of Large Language Models (LLMs) has led to their widespread use across a broad spectrum of tasks including decision making. Prior studies have compared the decision making abilities of LLMs with those of humans from a psychological perspective. However, these studies have not always properly accounted for the sensitivity of LLMs' behavior to hyperparameters and variations in the prompt. In this study, we examine LLMs' performance on the Horizon decision making task studied by Binz and Schulz (2023) analyzing how LLMs respond to variations in prompts and hyperparameters. By experimenting on three OpenAI language models possessing different capabilities, we observe that the decision making abilities fluctuate based on the input prompts and temperature settings. Contrary to previous findings language models display a human-like exploration exploitation tradeoff after simple adjustments to the prompt.