LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting
作者: Yewen Li, Zhiyi Lyu, Peng Jiang, Qingpeng Cai, Fei Pan, Bo An, Peng Jiang
分类: cs.CL, cs.AI
发布日期: 2026-03-05
💡 一句话要点
提出LBM:一种分层大型自动竞价模型,通过推理和行动提升广告效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动竞价 大型语言模型 分层模型 强化学习 离线训练 广告投放 推理 行动生成
📋 核心要点
- 现有自动竞价方法受限于黑盒训练和数据覆盖,难以理解任务状态并在动态环境中泛化,导致违反直觉的行为。
- 提出分层大型自动竞价模型(LBM),包含推理模块LBM-Think和行动模块LBM-Act,利用LLM的推理能力。
- 实验表明,基于LBM的生成模型在训练效率和泛化能力方面表现优异,尤其是在缓解LLM幻觉方面。
📝 摘要(中文)
在线广告平台上广告拍卖规模的不断扩大加剧了竞争,使得手动竞价变得不切实际,因此需要自动竞价来帮助广告商实现其经济目标。现有的自动竞价方法已经发展到使用离线强化学习或生成方法来优化竞价策略,但由于黑盒训练方式和数据集的有限模式覆盖,它们有时会表现出违反直觉的行为,从而导致理解任务状态和在动态广告环境中泛化的挑战。大型语言模型(LLM)通过利用先前的人类知识和推理能力来提高自动竞价性能,提供了一个有希望的解决方案。然而,由于在竞争激烈的拍卖中需要精确的行动,以及缺乏专门的自动竞价知识,直接将LLM应用于自动竞价面临着困难,这可能导致幻觉和次优决策。为了应对这些挑战,我们提出了一种分层大型自动竞价模型(LBM),以利用LLM的推理能力来开发卓越的自动竞价策略。这包括用于推理的高级LBM-Think模型和用于行动生成的低级LBM-Act模型。具体来说,我们提出了一种双重嵌入机制,以有效地融合包括语言和数值输入在内的两种模态,用于LBM-Act的语言引导训练;然后,我们提出了一种称为GQPO的离线强化微调技术,以减轻LLM-Think的幻觉并提高决策性能,而无需像以前的基于多轮LLM的方法那样的模拟或真实世界的部署。实验表明,基于我们的LBM的生成骨干网络的优越性,尤其是在高效的训练方式和泛化能力方面。
🔬 方法详解
问题定义:论文旨在解决在线广告自动竞价中,现有方法因黑盒训练和数据覆盖不足导致的泛化能力差、决策违反直觉的问题。现有方法难以有效利用大型语言模型(LLM)的知识和推理能力,且直接应用LLM容易产生幻觉和次优决策。
核心思路:论文的核心思路是利用分层结构,将LLM的推理能力与精确的行动生成解耦。通过高级的LBM-Think模型进行推理,理解任务状态并制定策略,然后由低级的LBM-Act模型根据策略生成具体的竞价行动。这种分层结构可以有效利用LLM的知识,同时避免直接行动带来的幻觉问题。
技术框架:LBM模型包含两个主要模块:LBM-Think和LBM-Act。LBM-Think是一个基于LLM的推理模块,负责接收环境信息,进行推理并输出策略。LBM-Act是一个行动生成模块,负责接收LBM-Think输出的策略,并生成具体的竞价行动。论文还提出了双重嵌入机制,用于融合语言和数值输入,以及离线强化微调技术GQPO,用于优化LBM-Think的决策能力。整体流程是:输入广告环境信息 -> LBM-Think推理 -> 输出策略 -> LBM-Act生成行动 -> 执行行动 -> 获得反馈 -> 循环迭代。
关键创新:论文的关键创新在于分层结构和GQPO微调方法。分层结构解耦了推理和行动,使得可以更好地利用LLM的知识和推理能力,同时避免幻觉问题。GQPO微调方法可以在离线环境下,通过强化学习优化LBM-Think的决策能力,无需在线模拟或真实环境部署。双重嵌入机制也是一个创新点,它有效地融合了语言和数值信息,提升了LBM-Act的性能。
关键设计:双重嵌入机制将语言和数值特征分别嵌入到不同的向量空间,然后进行融合。GQPO微调方法使用离线强化学习算法,优化LBM-Think的策略,目标是最大化广告主的收益。具体的损失函数和网络结构细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于LBM的生成模型在自动竞价任务中表现优异,尤其是在训练效率和泛化能力方面。与现有方法相比,LBM能够更有效地利用LLM的知识和推理能力,从而制定更优的竞价策略。具体的性能提升数据和对比基线需要在论文中查找(未知)。
🎯 应用场景
该研究成果可应用于各种在线广告平台,帮助广告主实现更高效的自动竞价策略,提升广告投放效果和投资回报率。通过利用LLM的知识和推理能力,可以更好地理解用户需求和市场趋势,从而制定更精准的广告投放方案。该技术还可扩展到其他需要复杂决策的领域,如金融交易、智能交通等。
📄 摘要(原文)
The growing scale of ad auctions on online advertising platforms has intensified competition, making manual bidding impractical and necessitating auto-bidding to help advertisers achieve their economic goals. Current auto-bidding methods have evolved to use offline reinforcement learning or generative methods to optimize bidding strategies, but they can sometimes behave counterintuitively due to the black-box training manner and limited mode coverage of datasets, leading to challenges in understanding task status and generalization in dynamic ad environments. Large language models (LLMs) offer a promising solution by leveraging prior human knowledge and reasoning abilities to improve auto-bidding performance. However, directly applying LLMs to auto-bidding faces difficulties due to the need for precise actions in competitive auctions and the lack of specialized auto-bidding knowledge, which can lead to hallucinations and suboptimal decisions. To address these challenges, we propose a hierarchical Large autoBidding Model (LBM) to leverage the reasoning capabilities of LLMs for developing a superior auto-bidding strategy. This includes a high-level LBM-Think model for reasoning and a low-level LBM-Act model for action generation. Specifically, we propose a dual embedding mechanism to efficiently fuse two modalities, including language and numerical inputs, for language-guided training of the LBM-Act; then, we propose an offline reinforcement fine-tuning technique termed GQPO for mitigating the LLM-Think's hallucinations and enhancing decision-making performance without simulation or real-world rollout like previous multi-turn LLM-based methods. Experiments demonstrate the superiority of a generative backbone based on our LBM, especially in an efficient training manner and generalization ability.