Inverse Safety Filtering: Inferring Constraints from Safety Filters for Decentralized Coordination

📄 arXiv: 2604.02687 📥 PDF

作者: Minh Nguyen, Jingqi Li, Gechen Qu, Claire J. Tomlin

分类: eess.SY

发布日期: 2026-04-06


💡 一句话要点

提出逆安全滤波方法,用于多智能体分散协调中的约束推断

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 多智能体系统 分散协调 安全滤波 约束推断 控制障碍函数

📋 核心要点

  1. 现有方法在多智能体协调中依赖昂贵的通信通道来共享安全约束,限制了其可扩展性和鲁棒性。
  2. 该论文提出一种逆安全滤波方法,通过观察其他智能体的安全滤波动作来在线推断约束,无需显式通信。
  3. 通过蒙特卡罗模拟和四足机器人硬件实验验证了该方法的有效性,证明了其在分散协调中的可行性。

📝 摘要(中文)

在不确定环境中,安全的多智能体协调可以受益于从其他智能体学习约束。通过动作隐式地传递安全约束是一种很有前景的方法,它允许智能体在没有昂贵通信通道的情况下进行协调并保持安全。本文提出了一种在线方法,用于从观察其他智能体的安全滤波动作中推断约束。我们通过使用安全滤波器来确保前向安全性,并利用它们的结构来反向推断约束来解决这个问题。我们提供了可以推断这些约束的充分条件,并证明了我们的推断方法是收敛的。这种约束推断过程与一种分散式规划方法相结合,该方法确保在约束激活距离足够大时安全。然后,我们通过蒙特卡罗模拟和四足机器人硬件实验来验证我们的方法。

🔬 方法详解

问题定义:论文旨在解决多智能体分散协调中,如何在缺乏显式通信的情况下,让智能体学习其他智能体的安全约束,从而实现安全高效的协同。现有方法通常依赖智能体间的直接通信来共享约束信息,这在通信受限或不可靠的环境中变得不可行,并且增加了系统的复杂性。因此,如何在仅通过观察其他智能体的行为来推断其安全约束,是一个重要的挑战。

核心思路:论文的核心思路是利用安全滤波器(Safety Filter)的结构,从智能体的安全滤波动作中反向推断其潜在的安全约束。安全滤波器是一种保证系统安全性的控制策略,它会修改智能体的原始动作,使其满足安全约束。通过观察智能体被安全滤波器修改后的动作,可以推断出其原始动作以及安全滤波器施加的约束。这种方法避免了显式通信,实现了隐式的约束共享。

技术框架:该方法包含以下几个主要步骤:1) 智能体执行动作,该动作经过安全滤波器处理,确保安全性。2) 其他智能体观察该智能体的安全滤波动作。3) 使用逆安全滤波方法,从观察到的动作中推断出潜在的安全约束。4) 将推断出的约束纳入自身的规划过程中,以实现安全协调。整个过程是在线的,智能体可以不断学习和更新其他智能体的约束。

关键创新:该论文的关键创新在于提出了逆安全滤波的概念,并设计了一种在线推断约束的方法。与传统的安全滤波方法不同,该方法不是利用已知的约束来设计安全滤波器,而是从安全滤波后的动作中反向推断约束。这种方法使得智能体可以在没有显式通信的情况下学习其他智能体的安全约束,从而实现分散协调。

关键设计:论文中,安全滤波器通常基于控制障碍函数(Control Barrier Function, CBF)实现。逆安全滤波的关键在于求解一个优化问题,该优化问题旨在找到与观察到的安全滤波动作最一致的约束。论文提供了可以推断这些约束的充分条件,并证明了该推断方法是收敛的。此外,论文还设计了一种分散式规划方法,该方法利用推断出的约束来确保智能体之间的安全协调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过蒙特卡罗模拟和四足机器人硬件实验验证了该方法的有效性。实验结果表明,该方法能够有效地推断其他智能体的安全约束,并实现安全的分散协调。在四足机器人实验中,多个机器人能够在未知环境中安全地避开彼此,证明了该方法在实际应用中的可行性。

🎯 应用场景

该研究成果可应用于无人驾驶车辆编队、多机器人协同搬运、空中交通管制等领域。在这些场景中,智能体需要在没有可靠通信的情况下进行协调,以避免碰撞和保证安全。该方法通过隐式学习其他智能体的约束,提高了系统的鲁棒性和可扩展性,为实现安全自主的多智能体系统提供了新的思路。

📄 摘要(原文)

Safe multi-agent coordination in uncertain environments can benefit from learning constraints from other agents. Implicitly communicating safety constraints through actions is a promising approach, allowing agents to coordinate and maintain safety without expensive communication channels. This paper introduces an online method to infer constraints from observing the safety-filtered actions of other agents. We approach the problem by using safety filters to ensure forward safety and exploit their structure to work backwards and infer constraints. We provide sufficient conditions under which we can infer these constraints and prove that our inference method converges. This constraint inference procedure is coupled with a decentralized planning method that ensures safety when the constraint activation distance is sufficiently large. We then empirically validate our method with Monte Carlo simulations and hardware experiments with quadruped robots.