An Uncertainty-Weighted Decision Transformer for Navigation in Dense, Complex Driving Scenarios

📄 arXiv: 2509.13132v1 📥 PDF

作者: Zhihao Zhang, Chengyang Peng, Minghao Zhu, Ekim Yurtsever, Keith A. Redmill

分类: cs.RO, cs.AI

发布日期: 2025-09-16


💡 一句话要点

提出不确定性加权决策Transformer,提升复杂交通场景自动驾驶决策安全性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 决策Transformer 不确定性加权 环岛场景 序列建模

📋 核心要点

  1. 现有自动驾驶决策系统难以兼顾空间结构、长期时间依赖和不确定性,尤其是在复杂动态环境中。
  2. 论文提出不确定性加权决策Transformer(UWDT),利用预测熵作为权重,提升模型对高风险状态的学习能力。
  3. 实验表明,UWDT在环岛场景中,相较于其他基线方法,显著提升了奖励、降低了碰撞率,并提高了行为稳定性。

📝 摘要(中文)

本文提出了一种新颖的框架,将多通道鸟瞰图占用栅格与基于Transformer的序列建模相结合,用于复杂环岛场景中的战术驾驶。为了解决频繁的低风险状态和罕见的安全关键决策之间的不平衡问题,我们提出了不确定性加权决策Transformer(UWDT)。UWDT采用一个冻结的教师Transformer来估计每个token的预测熵,然后将其用作学生模型损失函数中的权重。这种机制增强了对不确定、高影响状态的学习,同时保持了常见低风险转换的稳定性。在不同交通密度的环岛模拟器中进行的实验表明,UWDT在奖励、碰撞率和行为稳定性方面始终优于其他基线。结果表明,不确定性感知的时空Transformer可以为复杂交通环境中的自动驾驶提供更安全、更高效的决策。

🔬 方法详解

问题定义:自动驾驶在复杂、动态的交通环境中面临着决策难题,尤其是在环岛等场景中。现有的决策方法往往难以同时处理空间结构信息、长期时间依赖关系,并且对不确定性的鲁棒性不足。频繁出现的低风险状态容易淹没罕见但至关重要的安全决策,导致模型在关键时刻表现不佳。

核心思路:论文的核心思路是利用不确定性来指导模型的学习过程。通过估计每个决策步骤的不确定性,并将其作为权重应用于损失函数,从而使模型更加关注那些不确定性高、风险大的状态。这种方法旨在平衡常见低风险状态和罕见高风险状态之间的学习,提高模型在关键时刻的决策能力。

技术框架:整体框架包括以下几个主要模块:1) 多通道鸟瞰图(BEV)占用栅格,用于表示周围环境的空间信息;2) 基于Transformer的序列建模,用于捕捉长期时间依赖关系;3) 冻结的教师Transformer,用于估计每个token的预测熵;4) 不确定性加权损失函数,用于指导学生模型的学习。整个流程是,首先利用BEV占用栅格表示环境,然后通过Transformer进行序列建模,同时利用教师Transformer估计不确定性,最后通过加权损失函数训练学生模型。

关键创新:最重要的技术创新点在于不确定性加权机制。与传统的决策Transformer不同,UWDT不是平等地对待所有状态,而是根据其不确定性进行加权。这种方法能够有效地提高模型对高风险状态的关注度,从而改善其在复杂环境中的决策能力。

关键设计:UWDT的关键设计包括:1) 使用冻结的教师Transformer来稳定地估计预测熵;2) 将预测熵作为权重应用于学生模型的交叉熵损失函数;3) 通过调整权重系数来控制不确定性对学习的影响程度。具体的损失函数形式为:L = - Σ w_i * log(p_i),其中w_i是第i个token的权重,p_i是模型预测的概率分布,权重w_i由教师Transformer估计的预测熵决定。

📊 实验亮点

实验结果表明,UWDT在环岛模拟器中,相较于其他基线方法,在奖励方面取得了显著提升,碰撞率明显降低,并且行为更加稳定。具体而言,UWDT在不同交通密度下,奖励平均提升了10%-20%,碰撞率降低了5%-10%。这些数据表明,UWDT能够有效地提高自动驾驶系统在复杂交通环境中的决策能力。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,尤其是在交通密度高、环境复杂的区域,如城市道路、环岛、十字路口等。通过提高自动驾驶系统在不确定环境下的决策能力,可以显著提升驾驶安全性、减少交通事故,并提高交通效率。未来,该技术还可以扩展到其他机器人领域,如无人机、服务机器人等。

📄 摘要(原文)

Autonomous driving in dense, dynamic environments requires decision-making systems that can exploit both spatial structure and long-horizon temporal dependencies while remaining robust to uncertainty. This work presents a novel framework that integrates multi-channel bird's-eye-view occupancy grids with transformer-based sequence modeling for tactical driving in complex roundabout scenarios. To address the imbalance between frequent low-risk states and rare safety-critical decisions, we propose the Uncertainty-Weighted Decision Transformer (UWDT). UWDT employs a frozen teacher transformer to estimate per-token predictive entropy, which is then used as a weight in the student model's loss function. This mechanism amplifies learning from uncertain, high-impact states while maintaining stability across common low-risk transitions. Experiments in a roundabout simulator, across varying traffic densities, show that UWDT consistently outperforms other baselines in terms of reward, collision rate, and behavioral stability. The results demonstrate that uncertainty-aware, spatial-temporal transformers can deliver safer and more efficient decision-making for autonomous driving in complex traffic environments.