Large Language Models are Near-Optimal Decision-Makers with a Non-Human Learning Behavior

📄 arXiv: 2506.16163v1 📥 PDF

作者: Hao Li, Gengrui Zhang, Petter Holme, Shuyue Hu, Zhen Wang

分类: cs.AI

发布日期: 2025-06-19


💡 一句话要点

研究表明大型语言模型在决策中接近最优但学习行为非人类化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 决策支持 不确定性管理 风险评估 实验心理学

📋 核心要点

  1. 现有研究对大型语言模型的决策学习过程了解不足,尤其是与人类决策的比较。
  2. 本研究通过实验心理学任务,系统评估LLMs在不确定性、风险和集体转变方面的决策能力。
  3. 实验结果显示,LLMs在决策任务中表现优于人类,且其决策过程与人类有显著差异。

📝 摘要(中文)

人类决策是社会文明的基础,但未来可能会越来越多地依赖人工智能。大型语言模型(LLMs)的出现改变了AI支持决策的性质和范围,但它们的决策学习过程与人类相比仍不够清晰。本研究考察了五种领先LLMs在不确定性、风险和集体转变三个核心维度上的决策行为,并与360名新招募的人类参与者进行了基准测试。结果显示,LLMs在所有任务中通常超越人类,接近最优表现。同时,它们的决策过程与人类存在根本差异,这提示我们在依赖LLMs替代人类判断时需谨慎。

🔬 方法详解

问题定义:本研究旨在探讨大型语言模型在决策过程中的学习行为,尤其是与人类决策的差异。现有方法未能充分揭示LLMs在不确定性和风险管理方面的能力。

核心思路:通过设计三种实验心理学任务,比较LLMs与人类在决策中的表现,揭示LLMs的决策机制及其与人类的根本差异。

技术框架:研究采用了三种经典的实验心理学任务,分别针对不确定性、风险和集体转变进行评估。参与者包括五种LLMs和360名人类。

关键创新:本研究首次系统性地比较了LLMs与人类在决策过程中的表现,揭示了LLMs在管理不确定性和风险方面的潜力,以及其决策过程的非人类化特征。

关键设计:实验设计中,任务选择基于心理学领域的经典研究,确保了评估的有效性和可靠性。参与者的表现通过标准化评分进行量化,以便于比较。

📊 实验亮点

实验结果表明,LLMs在所有评估任务中均表现优于人类,接近最优决策水平。具体而言,LLMs在不确定性和风险管理方面的表现显著提升,显示出其在复杂决策环境中的潜力。

🎯 应用场景

该研究的结果对人工智能在决策支持系统中的应用具有重要意义,尤其是在金融、医疗和自动驾驶等领域。理解LLMs的决策机制可以帮助设计更有效的AI系统,同时也提醒我们在使用这些系统时需谨慎,避免过度依赖。

📄 摘要(原文)

Human decision-making belongs to the foundation of our society and civilization, but we are on the verge of a future where much of it will be delegated to artificial intelligence. The arrival of Large Language Models (LLMs) has transformed the nature and scope of AI-supported decision-making; however, the process by which they learn to make decisions, compared to humans, remains poorly understood. In this study, we examined the decision-making behavior of five leading LLMs across three core dimensions of real-world decision-making: uncertainty, risk, and set-shifting. Using three well-established experimental psychology tasks designed to probe these dimensions, we benchmarked LLMs against 360 newly recruited human participants. Across all tasks, LLMs often outperformed humans, approaching near-optimal performance. Moreover, the processes underlying their decisions diverged fundamentally from those of humans. On the one hand, our finding demonstrates the ability of LLMs to manage uncertainty, calibrate risk, and adapt to changes. On the other hand, this disparity highlights the risks of relying on them as substitutes for human judgment, calling for further inquiry.