When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training

作者: Sanxing Chen, Xiaoyin Chen, Yukun Huang, Roy Xie, Bhuwan Dhingra

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-29

💡 一句话要点

元-Bandit LLM训练中涌现的贪婪利用偏差研究

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 序列决策 多臂老虎机 强化学习 监督微调 探索利用 贪婪利用偏差

📋 核心要点

大型语言模型在序列决策任务中探索不足，导致次优表现，现有方法难以有效提升其探索能力。
通过监督微调和强化学习训练LLM，并设计策略性奖励信号，鼓励更有效的探索和利用。
实验表明，该方法训练的智能体在多臂老虎机任务中表现优异，泛化能力强，但存在贪婪利用偏差。

📝 摘要（中文）

大型语言模型(LLM)有潜力成为自主智能体，但它们在序列决策中常常进行次优探索。最近的研究试图通过监督微调(SFT)或强化学习(RL)来增强LLM的能力，从而提高在经典多臂老虎机任务上的后悔值。然而，这些学习方法如何塑造探索策略以及它们的泛化能力如何仍然不清楚。我们通过使用SFT在专家轨迹上训练LLM以及使用RL和一系列定制的奖励信号（包括用于减少方差的策略性、后悔值塑造的奖励，以及支持oracle模仿的算法奖励）来研究这两种范式。由此产生的智能体优于预训练模型，并且实现了与上限置信区间(UCB)和汤普森采样相当的性能，并且对6倍更长的horizon和跨老虎机族的泛化能力很强。行为分析表明，收益通常源于更复杂但更贪婪的利用：RL/SFT智能体比预训练模型更容易出现早期灾难性失败，过早地放弃探索。此外，被训练来模仿UCB的智能体通过采用更具利用性的变体来学会超越它们的老师。我们的发现阐明了每种训练范式何时更可取，并提倡定制的奖励设计和超越平均后悔值的评估，以促进稳健的探索行为。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在序列决策任务（特别是多臂老虎机问题）中探索策略次优的问题。现有方法，如直接使用预训练模型或简单地进行监督微调，无法有效地平衡探索和利用，导致后悔值较高。此外，现有方法对探索策略的塑造方式以及泛化能力缺乏深入理解。

核心思路：论文的核心思路是通过监督微调（SFT）和强化学习（RL）两种范式来训练LLM，并设计定制的奖励信号，以鼓励更有效的探索和利用。通过模仿专家轨迹（SFT）或优化特定奖励函数（RL），使LLM学习到更好的策略。同时，通过行为分析，深入理解不同训练方法对探索策略的影响。

技术框架：整体框架包括以下几个主要阶段：1) 数据准备：生成或收集多臂老虎机任务的专家轨迹数据。2) 模型训练：使用SFT或RL训练LLM。SFT使用专家轨迹进行监督学习，RL使用定制的奖励函数进行训练。3) 策略评估：在不同长度的horizon和不同老虎机族上评估训练后的LLM的性能，包括平均后悔值和探索行为。4) 行为分析：分析LLM的探索策略，例如探索的深度和广度，以及对早期失败的反应。

关键创新：论文的关键创新在于：1) 深入研究了SFT和RL两种训练范式对LLM探索策略的影响，揭示了贪婪利用偏差。2) 设计了定制的奖励信号，包括策略性、后悔值塑造的奖励，以及支持oracle模仿的算法奖励，以提高RL训练的效率和稳定性。3) 通过行为分析，揭示了RL/SFT智能体比预训练模型更容易出现早期灾难性失败，过早地放弃探索。

关键设计：在RL训练中，使用了多种定制的奖励函数，例如：1) Regret-shaped reward：根据后悔值的大小来调整奖励，以鼓励更有效的探索。2) Algorithmic reward：模仿UCB算法的奖励函数，使LLM学习UCB的策略。在SFT训练中，使用了专家轨迹数据，这些轨迹由UCB或Thompson Sampling等算法生成。关键参数包括学习率、batch size、horizon长度等。网络结构使用了标准的Transformer结构。

📊 实验亮点

实验结果表明，通过SFT和RL训练的LLM在多臂老虎机任务中表现优于预训练模型，并达到了与UCB和Thompson Sampling相当的性能。尤其是在泛化能力方面，训练后的LLM在6倍更长的horizon和跨老虎机族上表现出很强的鲁棒性。然而，行为分析揭示了RL/SFT智能体存在贪婪利用偏差，更容易出现早期灾难性失败。

🎯 应用场景

该研究成果可应用于开发更智能、更自主的LLM智能体，用于解决实际的序列决策问题，例如推荐系统、资源分配、自动驾驶等。通过理解和缓解贪婪利用偏差，可以提高LLM智能体的鲁棒性和泛化能力，使其在复杂环境中做出更明智的决策。此外，该研究也为设计更有效的LLM训练方法提供了指导。

📄 摘要（原文）

While Large Language Models (LLMs) hold promise to become autonomous agents, they often explore suboptimally in sequential decision-making. Recent work has sought to enhance this capability via supervised fine-tuning (SFT) or reinforcement learning (RL), improving regret on the classic multi-armed bandit task. However, it remains unclear how these learning methods shape exploration strategies and how well they generalize. We investigate both paradigms by training LLMs with SFT on expert trajectories and RL with a range of tailored reward signals including a strategic, regret-shaped reward to reduce variance, and an algorithmic reward that enables oracle imitation. The resulting agents outperform pre-trained models and achieve performance comparable to Upper Confidence Bound (UCB) and Thompson Sampling, with robust generalization to 6x longer horizons and across bandit families. Behavioral analysis reveals that gains often stem from more sophisticated but greedier exploitation: RL/SFT agents are more prone to early catastrophic failure than pre-trained models, prematurely abandoning exploration. Furthermore, agents trained to imitate UCB learn to outperform their teacher by adopting more exploitative variants. Our findings clarify when each training paradigm is preferable and advocate tailored reward design and evaluation beyond average regret to promote robust exploratory behavior.

When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册