Jump Start or False Start? A Theoretical and Empirical Evaluation of LLM-initialized Bandits

📄 arXiv: 2604.02527 📥 PDF

作者: Adam Bayley, Xiaodan Zhu, Raquel Aoki, Yanshuai Cao, Kevin H. Wilson

分类: cs.LG, cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出LLM初始化Bandit算法的理论分析框架,评估噪声和偏差对性能的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM初始化 Bandit算法 上下文Bandit 噪声分析 偏差分析

📋 核心要点

  1. 现有LLM初始化的Bandit算法研究假设LLM生成偏好与用户真实偏好对齐,忽略了噪声和偏差的影响。
  2. 该论文提出理论分析框架,研究随机噪声和系统偏差对LLM初始化Bandit算法性能的影响,并推导预热优于冷启动的充分条件。
  3. 实验结果表明,在一定噪声范围内预热有效,但超过阈值或存在系统偏差时,预热效果会显著降低,甚至不如冷启动。

📝 摘要(中文)

大型语言模型(LLM)的最新进展为生成用户偏好数据以预热bandit算法提供了新的机会。最近关于LLM初始化的上下文bandit算法(CBLI)的研究表明,这些合成先验可以显著降低早期遗憾。然而,这些发现假设LLM生成的选择与实际用户偏好合理对齐。在本文中,我们系统地研究了当随机和标签翻转噪声注入到合成训练数据中时,LLM生成的偏好的表现。对于对齐的领域,我们发现预热在高达30%的损坏下仍然有效,在40%左右失去优势,并在超过50%时降低性能。当存在系统性错位时,即使没有添加噪声,LLM生成的先验也可能导致比冷启动bandit算法更高的遗憾。为了解释这些行为,我们开发了一个理论分析,将随机标签噪声和系统性错位对驱动bandit算法遗憾的先验误差的影响进行分解,并推导出一个充分条件,在该条件下,基于LLM的预热算法在理论上优于冷启动bandit算法。我们在多个联合数据集和LLM上验证了这些结果,表明估计的对齐可靠地跟踪了预热何时改善或降低推荐质量。

🔬 方法详解

问题定义:论文旨在解决LLM初始化Bandit算法(CBLI)在实际应用中,由于LLM生成的用户偏好数据可能存在噪声和偏差,导致算法性能下降甚至不如冷启动的问题。现有研究通常假设LLM生成的数据与真实用户偏好对齐,忽略了数据质量对算法性能的影响。

核心思路:论文的核心思路是建立一个理论框架,分析随机标签噪声和系统性偏差对CBLI算法遗憾值的影响。通过分解先验误差,推导出一个充分条件,在该条件下,LLM预热的bandit算法在理论上优于冷启动的bandit算法。该理论框架可以帮助理解LLM初始化对bandit算法性能的影响,并指导实际应用中如何选择合适的LLM和数据预处理方法。

技术框架:论文的技术框架主要包含以下几个部分:1) 理论分析:建立数学模型,分析噪声和偏差对先验误差的影响,并推导预热优于冷启动的充分条件。2) 实验验证:在多个联合数据集和LLM上进行实验,验证理论分析的正确性。3) 对齐估计:提出一种估计LLM生成数据与真实用户偏好对齐程度的方法,并验证其与算法性能的相关性。

关键创新:论文的关键创新在于:1) 首次系统地研究了噪声和偏差对LLM初始化Bandit算法性能的影响。2) 提出了一个理论分析框架,可以定量分析噪声和偏差对算法遗憾值的影响。3) 推导了一个预热优于冷启动的充分条件,为实际应用提供了理论指导。

关键设计:论文的关键设计包括:1) 噪声模型:使用随机标签噪声和系统性偏差来模拟LLM生成数据的质量问题。2) 遗憾值分解:将遗憾值分解为先验误差、探索误差和利用误差,从而可以更清晰地分析不同因素对算法性能的影响。3) 对齐估计方法:使用余弦相似度等指标来估计LLM生成数据与真实用户偏好之间的对齐程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当LLM生成数据的噪声水平低于30%时,预热可以有效降低早期遗憾。当噪声水平超过50%或存在系统性偏差时,预热效果会显著降低,甚至不如冷启动。实验还验证了估计的对齐程度与算法性能之间存在显著相关性,可以作为选择LLM和数据预处理方法的参考。

🎯 应用场景

该研究成果可应用于推荐系统、广告投放、个性化搜索等领域。通过评估LLM生成数据的质量,可以选择合适的LLM和数据预处理方法,从而提高bandit算法的性能和用户体验。此外,该研究也为LLM在其他领域的应用提供了理论指导。

📄 摘要(原文)

The recent advancement of Large Language Models (LLMs) offers new opportunities to generate user preference data to warm-start bandits. Recent studies on contextual bandits with LLM initialization (CBLI) have shown that these synthetic priors can significantly lower early regret. However, these findings assume that LLM-generated choices are reasonably aligned with actual user preferences. In this paper, we systematically examine how LLM-generated preferences perform when random and label-flipping noise is injected into the synthetic training data. For aligned domains, we find that warm-starting remains effective up to 30% corruption, loses its advantage around 40%, and degrades performance beyond 50%. When there is systematic misalignment, even without added noise, LLM-generated priors can lead to higher regret than a cold-start bandit. To explain these behaviors, we develop a theoretical analysis that decomposes the effect of random label noise and systematic misalignment on the prior error driving the bandit's regret, and derive a sufficient condition under which LLM-based warm starts are provably better than a cold-start bandit. We validate these results across multiple conjoint datasets and LLMs, showing that estimated alignment reliably tracks when warm-starting improves or degrades recommendation quality.