Competitive Multi-Operator Reinforcement Learning for Joint Pricing and Fleet Rebalancing in AMoD Systems

作者: Emil Kragh Toft, Carolin Schmidt, Daniele Gammelli, Filipe Rodrigues

分类: cs.LG, cs.MA

发布日期: 2026-03-05

💡 一句话要点

提出竞争性多智能体强化学习，解决AMoD系统中联合定价与车队再平衡问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: AMoD系统 强化学习 多智能体 定价策略 车队再平衡 离散选择模型 竞争环境

📋 核心要点

现有AMoD研究主要关注单运营商优化，忽略了真实市场中多运营商竞争带来的复杂动态。
提出多运营商强化学习框架，结合离散选择模型，模拟乘客基于效用的选择行为，实现竞争环境下的策略学习。
实验表明，竞争环境显著改变了定价和车队部署策略，验证了学习方法在竞争随机性下的鲁棒性。

📝 摘要（中文）

本文研究了竞争环境下自动按需出行(AMoD)系统的定价和车队再平衡问题。针对现有单运营商AMoD控制方法无法捕捉竞争市场动态的局限性，提出了一个多运营商强化学习框架，其中两个运营商同时学习定价和车队再平衡策略。通过集成离散选择理论，乘客分配和需求竞争可以内生性地从效用最大化决策中产生。使用来自多个城市的真实世界数据进行的实验表明，与垄断环境相比，竞争从根本上改变了学习到的行为，导致更低的价格和不同的车队定位模式。值得注意的是，基于学习的方法对竞争带来的额外随机性具有鲁棒性，竞争性智能体可以成功地收敛到有效的策略，同时考虑到部分未观察到的竞争对手策略。

🔬 方法详解

问题定义：论文旨在解决在竞争性AMoD市场中，多个运营商如何通过联合优化定价和车队再平衡策略来最大化自身收益的问题。现有单运营商的优化方法无法有效应对竞争对手的策略变化和乘客选择行为，导致次优的定价和车队部署方案。

核心思路：论文的核心思路是将多运营商的定价和车队再平衡问题建模为一个竞争性的强化学习问题。每个运营商作为一个智能体，通过与环境和其他运营商的交互来学习最优策略。通过引入离散选择模型，乘客的选择行为被纳入到环境模型中，从而使智能体能够感知到竞争对手的策略对自身收益的影响。

技术框架：整体框架包含两个运营商智能体和一个环境模型。每个智能体使用强化学习算法（具体算法未明确说明，但暗示是基于值函数或策略梯度的算法）学习定价和车队再平衡策略。环境模型根据运营商的定价和车队部署策略，以及乘客的出行需求，使用离散选择模型来模拟乘客的选择行为，并将结果反馈给智能体。整个过程是一个迭代学习的过程，直到智能体收敛到最优策略。

关键创新：论文的关键创新在于将多运营商竞争引入到AMoD系统的优化问题中，并提出了一个基于强化学习的解决方案。通过集成离散选择模型，论文能够更真实地模拟竞争市场中的乘客选择行为，从而使智能体能够学习到更有效的竞争策略。

关键设计：论文的关键设计包括：1) 使用离散选择模型来模拟乘客选择行为，该模型基于乘客的效用函数，考虑了价格、出行时间等因素；2) 使用强化学习算法来学习定价和车队再平衡策略，具体的算法细节未知；3) 设计合适的奖励函数，以鼓励智能体学习到最大化自身收益的策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在竞争环境下，运营商会采取更低的定价策略，并且车队部署模式也会发生显著变化。与垄断环境相比，竞争环境下的运营商能够学习到更有效的策略，从而在竞争中获得优势。论文还验证了学习方法在竞争带来的随机性下的鲁棒性，表明该方法具有实际应用潜力。

🎯 应用场景

该研究成果可应用于实际的AMoD系统运营中，帮助运营商制定更具竞争力的定价策略和更高效的车队部署方案，从而提高市场份额和盈利能力。此外，该研究也为城市交通规划者提供了参考，可以用于评估不同运营商策略对城市交通系统的影响，并制定相应的政策。

📄 摘要（原文）

Autonomous Mobility-on-Demand (AMoD) systems promise to revolutionize urban transportation by providing affordable on-demand services to meet growing travel demand. However, realistic AMoD markets will be competitive, with multiple operators competing for passengers through strategic pricing and fleet deployment. While reinforcement learning has shown promise in optimizing single-operator AMoD control, existing work fails to capture competitive market dynamics. We investigate the impact of competition on policy learning by introducing a multi-operator reinforcement learning framework where two operators simultaneously learn pricing and fleet rebalancing policies. By integrating discrete choice theory, we enable passenger allocation and demand competition to emerge endogenously from utility-maximizing decisions. Experiments using real-world data from multiple cities demonstrate that competition fundamentally alters learned behaviors, leading to lower prices and distinct fleet positioning patterns compared to monopolistic settings. Notably, we demonstrate that learning-based approaches are robust to the additional stochasticity of competition, with competitive agents successfully converging to effective policies while accounting for partially unobserved competitor strategies.

Competitive Multi-Operator Reinforcement Learning for Joint Pricing and Fleet Rebalancing in AMoD Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理