Jump Start or False Start? A Theoretical and Empirical Evaluation of LLM-initialized Bandits

作者: Adam Bayley, Xiaodan Zhu, Raquel Aoki, Yanshuai Cao, Kevin H. Wilson

分类: cs.LG, cs.AI

发布日期: 2026-04-06

💡 一句话要点

提出LLM初始化Bandit算法的理论分析框架，评估噪声和偏差对性能的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM初始化 Bandit算法 上下文Bandit 噪声分析 偏差分析

📋 核心要点

现有LLM初始化的Bandit算法研究假设LLM生成偏好与用户真实偏好对齐，忽略了噪声和偏差的影响。
该论文提出理论分析框架，研究随机噪声和系统偏差对LLM初始化Bandit算法性能的影响，并推导预热优于冷启动的充分条件。
实验结果表明，在一定噪声范围内预热有效，但超过阈值或存在系统偏差时，预热效果会显著降低，甚至不如冷启动。

📝 摘要（中文）

大型语言模型(LLM)的最新进展为生成用户偏好数据以预热bandit算法提供了新的机会。最近关于LLM初始化的上下文bandit算法(CBLI)的研究表明，这些合成先验可以显著降低早期遗憾。然而，这些发现假设LLM生成的选择与实际用户偏好合理对齐。在本文中，我们系统地研究了当随机和标签翻转噪声注入到合成训练数据中时，LLM生成的偏好的表现。对于对齐的领域，我们发现预热在高达30%的损坏下仍然有效，在40%左右失去优势，并在超过50%时降低性能。当存在系统性错位时，即使没有添加噪声，LLM生成的先验也可能导致比冷启动bandit算法更高的遗憾。为了解释这些行为，我们开发了一个理论分析，将随机标签噪声和系统性错位对驱动bandit算法遗憾的先验误差的影响进行分解，并推导出一个充分条件，在该条件下，基于LLM的预热算法在理论上优于冷启动bandit算法。我们在多个联合数据集和LLM上验证了这些结果，表明估计的对齐可靠地跟踪了预热何时改善或降低推荐质量。

🔬 方法详解

问题定义：论文旨在解决LLM初始化Bandit算法(CBLI)在实际应用中，由于LLM生成的用户偏好数据可能存在噪声和偏差，导致算法性能下降甚至不如冷启动的问题。现有研究通常假设LLM生成的数据与真实用户偏好对齐，忽略了数据质量对算法性能的影响。

核心思路：论文的核心思路是建立一个理论框架，分析随机标签噪声和系统性偏差对CBLI算法遗憾值的影响。通过分解先验误差，推导出一个充分条件，在该条件下，LLM预热的bandit算法在理论上优于冷启动的bandit算法。该理论框架可以帮助理解LLM初始化对bandit算法性能的影响，并指导实际应用中如何选择合适的LLM和数据预处理方法。

技术框架：论文的技术框架主要包含以下几个部分：1) 理论分析：建立数学模型，分析噪声和偏差对先验误差的影响，并推导预热优于冷启动的充分条件。2) 实验验证：在多个联合数据集和LLM上进行实验，验证理论分析的正确性。3) 对齐估计：提出一种估计LLM生成数据与真实用户偏好对齐程度的方法，并验证其与算法性能的相关性。

关键创新：论文的关键创新在于：1) 首次系统地研究了噪声和偏差对LLM初始化Bandit算法性能的影响。2) 提出了一个理论分析框架，可以定量分析噪声和偏差对算法遗憾值的影响。3) 推导了一个预热优于冷启动的充分条件，为实际应用提供了理论指导。

关键设计：论文的关键设计包括：1) 噪声模型：使用随机标签噪声和系统性偏差来模拟LLM生成数据的质量问题。2) 遗憾值分解：将遗憾值分解为先验误差、探索误差和利用误差，从而可以更清晰地分析不同因素对算法性能的影响。3) 对齐估计方法：使用余弦相似度等指标来估计LLM生成数据与真实用户偏好之间的对齐程度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，当LLM生成数据的噪声水平低于30%时，预热可以有效降低早期遗憾。当噪声水平超过50%或存在系统性偏差时，预热效果会显著降低，甚至不如冷启动。实验还验证了估计的对齐程度与算法性能之间存在显著相关性，可以作为选择LLM和数据预处理方法的参考。

🎯 应用场景

该研究成果可应用于推荐系统、广告投放、个性化搜索等领域。通过评估LLM生成数据的质量，可以选择合适的LLM和数据预处理方法，从而提高bandit算法的性能和用户体验。此外，该研究也为LLM在其他领域的应用提供了理论指导。

📄 摘要（原文）

The recent advancement of Large Language Models (LLMs) offers new opportunities to generate user preference data to warm-start bandits. Recent studies on contextual bandits with LLM initialization (CBLI) have shown that these synthetic priors can significantly lower early regret. However, these findings assume that LLM-generated choices are reasonably aligned with actual user preferences. In this paper, we systematically examine how LLM-generated preferences perform when random and label-flipping noise is injected into the synthetic training data. For aligned domains, we find that warm-starting remains effective up to 30% corruption, loses its advantage around 40%, and degrades performance beyond 50%. When there is systematic misalignment, even without added noise, LLM-generated priors can lead to higher regret than a cold-start bandit. To explain these behaviors, we develop a theoretical analysis that decomposes the effect of random label noise and systematic misalignment on the prior error driving the bandit's regret, and derive a sufficient condition under which LLM-based warm starts are provably better than a cold-start bandit. We validate these results across multiple conjoint datasets and LLMs, showing that estimated alignment reliably tracks when warm-starting improves or degrades recommendation quality.

Jump Start or False Start? A Theoretical and Empirical Evaluation of LLM-initialized Bandits

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理