The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge

📄 arXiv: 2509.11071v1 📥 PDF

作者: Jinghan Peng, Jingwen Wang, Xing Yu, Dehui Du

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-09-14


💡 一句话要点

CPS团队提出基于LLaVA微调和深度信息融合的视觉语言模型,用于CVPR 2024自动驾驶挑战赛。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 自动驾驶 LLaVA LoRA DoRA 深度估计 Chain-of-Thought

📋 核心要点

  1. 现有视觉语言模型在自动驾驶场景中,对复杂指令理解和推理能力不足,尤其是在多模态信息融合方面存在挑战。
  2. 该方法通过微调LLaVA模型,并结合LoRA和DoRA技术,提升模型在特定数据集上的性能和泛化能力。
  3. 实验结果表明,该方法在DriveLM-nuScenes数据集上取得了显著的性能提升,验证集排行榜上排名第一,得分为0.7799。

📝 摘要(中文)

本报告概述了我们在CVPR 2024自动驾驶挑战赛“基于语言的驾驶”赛道中,使用视觉语言模型系统的方法。我们完全使用DriveLM-nuScenes数据集来训练我们的模型。我们的系统建立在LLaVA模型之上,并通过LoRA和DoRA方法进行微调来增强性能。此外,我们还集成了来自开源深度估计模型的深度信息,以丰富训练和推理过程。对于推理,特别是对于多项选择题和是/否问题,我们采用了Chain-of-Thought(CoT,思维链)推理方法,以提高结果的准确性。这种全面的方法使我们在验证集排行榜上获得了0.7799的最高分,排名第一。

🔬 方法详解

问题定义:论文旨在解决自动驾驶场景下,视觉语言模型如何更好地理解和执行基于自然语言的驾驶指令的问题。现有方法在处理复杂场景和指令时,往往缺乏足够的推理能力和对环境的感知能力,尤其是在多模态信息融合方面存在不足。

核心思路:论文的核心思路是利用预训练的LLaVA模型作为基础,通过微调和知识增强来提升其在自动驾驶场景下的性能。具体来说,通过LoRA和DoRA等高效微调方法,使模型能够更好地适应DriveLM-nuScenes数据集。同时,引入深度信息来增强模型对环境的感知能力,并采用Chain-of-Thought推理方法来提高推理的准确性。

技术框架:整体框架包括数据预处理、模型微调和推理三个主要阶段。数据预处理阶段主要对DriveLM-nuScenes数据集进行清洗和格式化,并利用开源深度估计模型生成深度信息。模型微调阶段使用LoRA和DoRA方法对LLaVA模型进行微调,使其适应自动驾驶场景。推理阶段则采用Chain-of-Thought推理方法,逐步推导答案,提高准确性。

关键创新:论文的关键创新在于将深度信息融入到视觉语言模型中,从而增强了模型对环境的感知能力。此外,采用Chain-of-Thought推理方法,使得模型能够进行更复杂的推理,提高了答案的准确性。同时,使用LoRA和DoRA等高效微调方法,降低了训练成本。

关键设计:在模型微调阶段,采用了LoRA和DoRA两种方法,以平衡训练效率和模型性能。具体参数设置未知。深度信息的融合方式也未知。Chain-of-Thought推理方法的具体实现细节也未知,例如prompt的设计。

📊 实验亮点

该方法在CVPR 2024自动驾驶挑战赛的“基于语言的驾驶”赛道中,在验证集排行榜上取得了0.7799的最高分,排名第一。这一结果表明,通过微调LLaVA模型、融合深度信息和采用Chain-of-Thought推理方法,可以显著提升视觉语言模型在自动驾驶场景下的性能。

🎯 应用场景

该研究成果可应用于自动驾驶汽车的自然语言交互系统,例如,驾驶员可以通过语音指令控制车辆行驶,或者询问车辆周围环境信息。此外,该技术还可以应用于机器人导航、智能监控等领域,提升机器对环境的理解和交互能力。未来,结合更先进的视觉和语言模型,有望实现更智能、更安全的自动驾驶系统。

📄 摘要(原文)

This report outlines our approach using vision language model systems for the Driving with Language track of the CVPR 2024 Autonomous Grand Challenge. We have exclusively utilized the DriveLM-nuScenes dataset for training our models. Our systems are built on the LLaVA models, which we enhanced through fine-tuning with the LoRA and DoRA methods. Additionally, we have integrated depth information from open-source depth estimation models to enrich the training and inference processes. For inference, particularly with multiple-choice and yes/no questions, we adopted a Chain-of-Thought reasoning approach to improve the accuracy of the results. This comprehensive methodology enabled us to achieve a top score of 0.7799 on the validation set leaderboard, ranking 1st on the leaderboard.