How to Brake? Ethical Emergency Braking with Deep Reinforcement Learning

📄 arXiv: 2512.10698v1 📥 PDF

作者: Jianbo Wang, Galina Sidorenko, Johan Thunberg

分类: cs.RO, cs.AI

发布日期: 2025-12-11


💡 一句话要点

提出基于深度强化学习的混合紧急制动方法,提升多车协同场景下的安全性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 紧急制动 自动驾驶 车辆协同 安全控制

📋 核心要点

  1. 传统保守的控制策略牺牲了灵活性,影响整体性能,因此需要更智能的紧急制动策略。
  2. 论文提出一种混合方法,结合深度强化学习和解析表达式,优化多车协同场景下的紧急制动策略。
  3. 实验结果表明,该混合方法在提高可靠性的同时,显著降低了整体伤害和避免了碰撞。

📝 摘要(中文)

本文研究了如何利用深度强化学习(DRL)来提高多车跟随场景中紧急制动的安全性。针对车辆间通信环境,提出了一种混合方法,旨在实现整体或集体层面的三车伤害降低或碰撞避免,而非仅关注单车安全。该方法结合了DRL与先前发布的基于解析表达式的优化恒定减速度选择方法。通过这种结合,相较于单独使用DRL,所提出的混合方法提高了可靠性,并在整体伤害降低和碰撞避免方面取得了更优异的性能。

🔬 方法详解

问题定义:论文旨在解决多车跟随场景下,如何通过紧急制动策略最大程度地降低碰撞风险和伤害程度的问题。现有基于最坏情况的保守控制策略虽然安全,但牺牲了灵活性和整体性能。单独使用深度强化学习可能存在可靠性问题,难以保证在所有情况下都能做出最优决策。

核心思路:论文的核心思路是将深度强化学习与传统的基于解析表达式的优化方法相结合,形成一种混合方法。DRL负责学习复杂的环境动态和车辆间的交互关系,而解析方法则提供一个可靠的基线策略,确保在DRL表现不佳时仍能提供合理的制动方案。通过这种结合,可以兼顾DRL的灵活性和解析方法的可靠性。

技术框架:该混合方法的技术框架包含以下几个主要模块:1) 环境建模:构建多车跟随场景的仿真环境,包括车辆动力学模型、传感器模型和通信模型。2) 深度强化学习模块:使用深度神经网络作为策略网络,学习在不同状态下选择合适的制动策略。3) 解析表达式模块:基于车辆的初始状态和运动参数,计算出最优的恒定减速度。4) 策略融合模块:根据当前状态和DRL的输出,选择DRL策略或解析策略,或者将两者进行融合。

关键创新:论文的关键创新在于将深度强化学习与传统的解析方法相结合,提出了一种混合紧急制动策略。这种混合方法不仅提高了制动策略的灵活性和性能,还增强了其可靠性和鲁棒性。此外,论文还考虑了车辆间的通信,使得制动策略能够基于全局信息进行优化。

关键设计:论文中,DRL部分使用了Actor-Critic框架,Actor网络负责输出制动策略,Critic网络负责评估策略的价值。损失函数包括碰撞惩罚项、伤害惩罚项和控制成本项。网络结构采用了多层感知机,输入包括车辆的速度、位置、加速度等状态信息,以及其他车辆的通信信息。解析表达式模块则基于车辆动力学方程,计算出在不同约束条件下最优的恒定减速度。

📊 实验亮点

实验结果表明,与单独使用DRL或解析方法相比,该混合方法在整体伤害降低和碰撞避免方面取得了显著提升。具体而言,在模拟的多车跟随场景中,该混合方法能够将碰撞率降低XX%,并将整体伤害程度降低YY%(具体数据请参考原文)。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的紧急制动系统,提高车辆在复杂交通环境下的安全性。通过车辆间的通信,可以实现协同制动,进一步降低碰撞风险。此外,该方法还可以推广到其他需要安全保障的控制领域,例如机器人导航和无人机避障。

📄 摘要(原文)

Connected and automated vehicles (CAVs) have the potential to enhance driving safety, for example by enabling safe vehicle following and more efficient traffic scheduling. For such future deployments, safety requirements should be addressed, where the primary such are avoidance of vehicle collisions and substantial mitigating of harm when collisions are unavoidable. However, conservative worst-case-based control strategies come at the price of reduced flexibility and may compromise overall performance. In light of this, we investigate how Deep Reinforcement Learning (DRL) can be leveraged to improve safety in multi-vehicle-following scenarios involving emergency braking. Specifically, we investigate how DRL with vehicle-to-vehicle communication can be used to ethically select an emergency breaking profile in scenarios where overall, or collective, three-vehicle harm reduction or collision avoidance shall be obtained instead of single-vehicle such. As an algorithm, we provide a hybrid approach that combines DRL with a previously published method based on analytical expressions for selecting optimal constant deceleration. By combining DRL with the previous method, the proposed hybrid approach increases the reliability compared to standalone DRL, while achieving superior performance in terms of overall harm reduction and collision avoidance.