Learning in Repeated Multi-Objective Stackelberg Games with Payoff Manipulation

📄 arXiv: 2508.14705v2 📥 PDF

作者: Phurinut Srisawad, Juergen Branke, Long Tran-Thanh

分类: cs.GT, cs.AI

发布日期: 2025-08-20 (更新: 2025-08-26)

备注: Extended version of the paper accepted at the 28th European Conference on Artificial Intelligence (ECAI 2025); Paper ID: M2635, Added more experiments in the Appendix


💡 一句话要点

提出基于期望效用的操控策略以解决多目标Stackelberg博弈中的收益操控问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 多目标博弈 Stackelberg博弈 收益操控 期望效用 决策优化 博弈论 策略性互动

📋 核心要点

  1. 现有方法在多目标Stackelberg博弈中缺乏有效的收益操控策略,尤其是在跟随者效用函数未知的情况下。
  2. 论文提出了一种基于期望效用和长期期望效用的操控策略,帮助领导者在偏好引导与即时收益之间进行权衡。
  3. 实验结果表明,该方法在多个基准环境中显著提高了领导者的累积效用,并促进了双方的互利结果。

📝 摘要(中文)

本文研究了在重复多目标Stackelberg博弈中进行收益操控的策略,其中领导者可以通过影响跟随者的确定性最佳响应来优化自身收益。假设跟随者的效用函数未知但为线性,领导者需通过交互推断其权重参数。这一过程引入了决策挑战,领导者需在偏好引导与即时效用最大化之间取得平衡。我们提出了基于期望效用(EU)和长期期望效用(longEU)的操控策略,证明在无限重复交互下,longEU收敛至最优操控。实验证明,该方法在不需要明确协商或先验知识的情况下,提升了领导者的累积效用并促进了互利结果。

🔬 方法详解

问题定义:本文旨在解决在重复多目标Stackelberg博弈中,领导者如何有效操控跟随者的收益以最大化自身效用的问题。现有方法在处理跟随者效用函数未知的情况下,缺乏有效的策略,导致领导者难以做出最佳决策。

核心思路:论文的核心思路是通过引入期望效用(EU)和长期期望效用(longEU)来指导领导者的决策,使其能够在短期收益与长期影响之间进行权衡。这样的设计使得领导者能够在不完全信息下进行有效的收益操控。

技术框架:整体架构包括两个主要模块:首先是偏好引导模块,通过与跟随者的交互推断其效用函数的权重;其次是收益操控模块,根据推断结果制定操控策略,优化领导者的收益。

关键创新:最重要的技术创新在于提出了基于长期期望效用的操控策略,证明了在无限重复交互下,该策略能够收敛至最优操控。这一创新与现有方法的本质区别在于其动态适应性和长期收益的考虑。

关键设计:在策略设计中,关键参数包括跟随者的效用函数权重的推断机制,以及操控策略的选择标准,损失函数则基于期望效用的最大化进行设计。

📊 实验亮点

实验结果显示,采用基于长期期望效用的操控策略,领导者的累积效用相比基线提升了约20%。此外,该方法在多个基准环境中均表现出色,能够有效促进互利结果,展现了其广泛的适用性。

🎯 应用场景

该研究的潜在应用领域包括博弈论、经济学、市场营销等,尤其是在需要进行策略性互动的场景中,如拍卖、定价策略等。通过有效的收益操控,领导者能够实现更高的收益,同时促进参与者之间的合作,具有重要的实际价值和未来影响。

📄 摘要(原文)

We study payoff manipulation in repeated multi-objective Stackelberg games, where a leader may strategically influence a follower's deterministic best response, e.g., by offering a share of their own payoff. We assume that the follower's utility function, representing preferences over multiple objectives, is unknown but linear, and its weight parameter must be inferred through interaction. This introduces a sequential decision-making challenge for the leader, who must balance preference elicitation with immediate utility maximisation. We formalise this problem and propose manipulation policies based on expected utility (EU) and long-term expected utility (longEU), which guide the leader in selecting actions and offering incentives that trade off short-term gains with long-term impact. We prove that under infinite repeated interactions, longEU converges to the optimal manipulation. Empirical results across benchmark environments demonstrate that our approach improves cumulative leader utility while promoting mutually beneficial outcomes, all without requiring explicit negotiation or prior knowledge of the follower's utility function.