DriveCombo: Benchmarking Compositional Traffic Rule Reasoning in Autonomous Driving

作者: Enhui Ma, Jiahuan Zhang, Guantian Zheng, Tao Tang, Shengbo Eben Li, Yuhang Lu, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Zhihui Hao, Xianpeng Lang, Kaicheng Yu

分类: cs.CV

发布日期: 2026-03-02

💡 一句话要点

提出DriveCombo基准，评估多模态大模型在自动驾驶中组合交通规则推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 多模态大模型 交通规则推理 基准测试 认知阶梯 场景生成 规则冲突

📋 核心要点

现有自动驾驶基准测试主要关注单一交通规则，忽略了真实场景中多规则并发和冲突带来的复杂性。
DriveCombo通过构建文本和视觉结合的基准，并设计五级认知阶梯，系统评估模型在复杂交通规则下的推理能力。
实验表明，主流多模态大模型在复杂场景下性能显著下降，而使用DriveCombo进行微调后，模型性能得到显著提升。

📝 摘要（中文）

多模态大型语言模型（MLLM）正迅速成为端到端自动驾驶系统的智能大脑。一个关键挑战是评估MLLM是否真正理解并遵循复杂的真实世界交通规则。然而，现有的基准主要集中于交通标志识别等单规则场景，忽略了真实驾驶中多规则并发和冲突的复杂性。因此，模型在简单任务上表现良好，但在真实世界复杂情况下经常失败或违反规则。为了弥合这一差距，我们提出了DriveCombo，这是一个基于文本和视觉的基准，用于组合交通规则推理。受到人类驾驶员认知发展的启发，我们提出了一个系统的五级认知阶梯，评估从单规则理解到多规则整合和冲突解决的推理，从而实现跨认知阶段的定量评估。我们进一步提出了一个Rule2Scene Agent，通过规则制定和场景生成，将基于语言的交通规则映射到动态驾驶场景，从而实现场景级交通规则视觉推理。对14个主流MLLM的评估显示，随着任务复杂性的增加，性能下降，尤其是在规则冲突期间。在分割数据集并在训练集上进行微调后，我们进一步观察到交通规则推理和下游规划能力的显着提高。这些结果突出了DriveCombo在推进合规和智能自动驾驶系统方面的有效性。

🔬 方法详解

问题定义：论文旨在解决现有自动驾驶模型在复杂交通规则场景下推理能力不足的问题。现有方法主要关注单一规则，无法有效处理多规则并发和冲突的情况，导致模型在真实驾驶场景中容易出现违规行为。

核心思路：论文的核心思路是构建一个更贴近真实驾驶场景的基准测试集，该测试集包含多条交通规则的组合，并设计一个五级认知阶梯，用于评估模型在不同认知阶段的推理能力。通过这种方式，可以更全面地评估模型对复杂交通规则的理解和应用能力。

技术框架：DriveCombo包含以下主要组成部分：1) 一个包含复杂交通规则组合的基准测试集；2) 一个五级认知阶梯，用于评估模型的推理能力；3) 一个Rule2Scene Agent，用于将语言描述的交通规则映射到动态驾驶场景。整体流程是，首先使用Rule2Scene Agent生成包含复杂交通规则的驾驶场景，然后使用五级认知阶梯评估模型在这些场景下的推理能力，最后根据评估结果对模型进行微调。

关键创新：论文的关键创新在于：1) 提出了一个用于评估复杂交通规则推理的基准测试集；2) 设计了一个五级认知阶梯，用于系统地评估模型在不同认知阶段的推理能力；3) 提出了一个Rule2Scene Agent，用于自动生成包含复杂交通规则的驾驶场景。与现有方法相比，该方法更关注模型在复杂场景下的推理能力，能够更全面地评估模型的性能。

关键设计：Rule2Scene Agent通过规则制定和场景生成，将语言描述的交通规则映射到动态驾驶场景。五级认知阶梯包括：单规则理解、多规则整合、规则冲突解决等不同阶段。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

对14个主流多模态大模型的评估显示，随着任务复杂性的增加，性能显著下降，尤其是在规则冲突期间。使用DriveCombo数据集进行微调后，模型在交通规则推理和下游规划能力方面均取得了显著提升，验证了该基准测试集的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶系统的开发和测试，帮助提高自动驾驶车辆在复杂交通环境下的安全性和可靠性。此外，该基准测试集和评估方法也可用于评估其他人工智能模型在复杂规则推理方面的能力，具有广泛的应用前景。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) are rapidly becoming the intelligence brain of end-to-end autonomous driving systems. A key challenge is to assess whether MLLMs can truly understand and follow complex real-world traffic rules. However, existing benchmarks mainly focus on single-rule scenarios like traffic sign recognition, neglecting the complexity of multi-rule concurrency and conflicts in real driving. Consequently, models perform well on simple tasks but often fail or violate rules in real world complex situations. To bridge this gap, we propose DriveCombo, a text and vision-based benchmark for compositional traffic rule reasoning. Inspired by human drivers' cognitive development, we propose a systematic Five-Level Cognitive Ladder that evaluates reasoning from single-rule understanding to multi-rule integration and conflict resolution, enabling quantitative assessment across cognitive stages. We further propose a Rule2Scene Agent that maps language-based traffic rules to dynamic driving scenes through rule crafting and scene generation, enabling scene-level traffic rule visual reasoning. Evaluations of 14 mainstream MLLMs reveal performance drops as task complexity grows, particularly during rule conflicts. After splitting the dataset and fine-tuning on the training set, we further observe substantial improvements in both traffic rule reasoning and downstream planning capabilities. These results highlight the effectiveness of DriveCombo in advancing compliant and intelligent autonomous driving systems.

DriveCombo: Benchmarking Compositional Traffic Rule Reasoning in Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理