Strong Duality and Dual Ascent Approach to Continuous-Time Chance-Constrained Stochastic Optimal Control
作者: Apurva Patil, Alfredo Duarte, Fabrizio Bisetti, Takashi Tanaka
分类: eess.SY, cs.RO
发布日期: 2025-11-19
备注: arXiv admin note: substantial text overlap with arXiv:2504.17154
💡 一句话要点
提出基于强对偶和对偶上升的连续时间随机最优控制方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)
关键词: 随机最优控制 机会约束 强对偶性 路径积分 Hamilton-Jacobi-Bellman方程
📋 核心要点
- 现有随机最优控制方法在处理机会约束时,常采用保守近似,导致性能下降。
- 该论文利用强对偶性,将机会约束问题转化为对偶问题,避免了保守近似。
- 通过路径积分方法数值求解对偶问题,并在移动机器人导航中验证了有效性。
📝 摘要(中文)
本文研究了连续时间、连续空间下的机会约束随机最优控制(SOC)问题,其中违反给定状态约束的概率被显式地限定。我们利用连续时间随机微积分中的退出时间概念来构建机会约束SOC问题。在没有任何保守近似的情况下,机会约束被转换为指标函数的期望,通过对偶公式将其纳入成本函数。然后,我们用由对偶变量参数化的Hamilton-Jacobi-Bellman偏微分方程的解来表示对偶函数。在系统动力学和成本函数的特定假设下,证明了原始机会约束问题与其对偶问题之间存在强对偶性。利用路径积分方法,通过梯度上升和系统轨迹的开环样本,对对偶问题进行数值求解。我们展示了移动机器人空间导航的机会约束运动规划的仿真研究,并将路径积分方法的解与有限差分法的解进行了比较。
🔬 方法详解
问题定义:论文旨在解决连续时间、连续空间下的机会约束随机最优控制问题。传统方法在处理机会约束时,通常采用保守的近似方法,例如将概率约束转化为更强的确定性约束,这会导致次优的控制策略和性能损失。因此,如何在不引入保守近似的前提下,有效地处理机会约束是该研究要解决的关键问题。
核心思路:论文的核心思路是利用强对偶性,将原始的机会约束随机最优控制问题转化为一个对偶问题。通过引入对偶变量,将机会约束转化为成本函数中的一项,从而避免了直接处理复杂的概率约束。然后,通过求解对偶问题,可以得到原始问题的最优解。这种方法的关键在于证明原始问题和对偶问题之间存在强对偶性,即对偶问题的最优值等于原始问题的最优值。
技术框架:整体框架包括以下几个主要步骤:1) 将机会约束随机最优控制问题形式化,并利用退出时间的概念来表示机会约束。2) 引入对偶变量,将机会约束转化为成本函数中的一项,得到对偶问题。3) 利用Hamilton-Jacobi-Bellman (HJB) 方程来表示对偶函数,该方程的解由对偶变量参数化。4) 证明原始问题和对偶问题之间存在强对偶性。5) 利用路径积分方法,通过梯度上升算法求解对偶问题。
关键创新:该论文的关键创新在于:1) 利用强对偶性,避免了机会约束处理中的保守近似。2) 将机会约束问题转化为对偶问题,并通过求解HJB方程来得到对偶函数的表达式。3) 利用路径积分方法,提供了一种有效的数值求解对偶问题的方法。与现有方法相比,该方法能够更准确地处理机会约束,并获得更好的控制性能。
关键设计:论文中关键的设计包括:1) 机会约束的表示方式,利用退出时间的概念,将机会约束转化为指标函数的期望。2) 对偶函数的构造,通过引入对偶变量,将机会约束转化为成本函数中的一项。3) HJB方程的求解,利用路径积分方法,通过梯度上升算法求解HJB方程,得到对偶函数的近似解。4) 强对偶性的证明,通过一定的假设条件,证明了原始问题和对偶问题之间存在强对偶性。
📊 实验亮点
论文通过仿真实验验证了所提出方法的有效性。在移动机器人空间导航任务中,将路径积分方法的解与有限差分法的解进行了比较。结果表明,路径积分方法能够更有效地处理机会约束,并获得更好的导航性能。具体的性能数据(例如,成功率、路径长度等)在论文中进行了详细的展示。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、航空航天等领域,在这些领域中,系统需要在不确定环境下安全可靠地运行,同时满足一定的性能指标。例如,在机器人导航中,可以利用该方法规划出一条既能到达目标点,又能避免碰撞的安全路径。在自动驾驶中,可以利用该方法控制车辆在复杂的交通环境中安全行驶。
📄 摘要(原文)
The paper addresses a continuous-time continuous-space chance-constrained stochastic optimal control (SOC) problem where the probability of failure to satisfy given state constraints is explicitly bounded. We leverage the notion of exit time from continuous-time stochastic calculus to formulate a chance-constrained SOC problem. Without any conservative approximation, the chance constraint is transformed into an expectation of an indicator function which can be incorporated into the cost function by considering a dual formulation. We then express the dual function in terms of the solution to a Hamilton-Jacobi-Bellman partial differential equation parameterized by the dual variable. Under a certain assumption on the system dynamics and cost function, it is shown that a strong duality holds between the primal chance-constrained problem and its dual. The Path integral approach is utilized to numerically solve the dual problem via gradient ascent using open-loop samples of system trajectories. We present simulation studies on chance-constrained motion planning for spatial navigation of mobile robots and the solution of the path integral approach is compared with that of the finite difference method.