Personalized Autonomous Driving with Large Language Models: Field Experiments
作者: Can Cui, Zichong Yang, Yupeng Zhou, Yunsheng Ma, Juanwu Lu, Lingxi Li, Yaobin Chen, Jitesh Panchal, Ziran Wang
分类: cs.AI
发布日期: 2023-12-14 (更新: 2024-05-08)
💡 一句话要点
提出Talk2Drive框架,利用大语言模型实现个性化自动驾驶,并通过实地实验验证。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 大语言模型 人机交互 个性化偏好 实地实验
📋 核心要点
- 现有自动驾驶系统难以理解人类驾驶员的复杂意图和个性化偏好,导致人机交互体验不佳。
- Talk2Drive框架利用大语言模型将自然语言指令转化为车辆控制,并引入记忆模块学习用户偏好,实现个性化驾驶。
- 实地实验表明,Talk2Drive能理解不同层次的指令,显著降低驾驶员接管率,验证了个性化偏好的有效性。
📝 摘要(中文)
本文提出了一种基于大语言模型的自动驾驶框架Talk2Drive,该框架能够将自然语言指令转化为可执行的车辆控制,并通过提出的记忆模块学习并满足驾驶员或乘客在安全性、效率和舒适性方面的个性化偏好。这是首次在真实自动驾驶车辆上部署大语言模型的多场景实地实验。实验表明,该系统能够理解不同直觉层次的人类意图,从“开快点”等直接指令到“我赶时间”等间接指令。此外,本文使用接管率来量化人类驾驶员对基于大语言模型的自动驾驶系统的信任度,结果表明Talk2Drive显著降低了高速公路、十字路口和停车场景中的接管率。同时验证了所提出的记忆模块考虑了个性化偏好,与没有记忆模块的系统相比,接管率最多降低了65.2%。
🔬 方法详解
问题定义:现有自动驾驶系统在理解人类驾驶员的自然语言指令,特别是那些带有隐含意图或个性化偏好的指令时存在困难。这导致驾驶员需要频繁地进行人工干预(即接管),降低了自动驾驶系统的可用性和用户体验。现有方法缺乏长期记忆机制,无法学习和适应驾驶员的个性化驾驶习惯和偏好。
核心思路:本文的核心思路是利用大语言模型(LLM)强大的自然语言理解和生成能力,将驾驶员的自然语言指令转化为车辆的控制指令。同时,引入一个记忆模块,用于存储和学习驾驶员的个性化偏好,从而使自动驾驶系统能够更好地理解驾驶员的意图,并提供更符合驾驶员习惯的驾驶行为。
技术框架:Talk2Drive框架主要包含以下几个模块:1) 自然语言理解模块:使用LLM将驾驶员的自然语言指令解析为意图向量。2) 记忆模块:存储驾驶员的驾驶偏好,例如对速度、舒适度等的偏好。3) 控制决策模块:根据意图向量和记忆模块中的偏好信息,生成车辆的控制指令,例如加速、减速、转向等。4) 车辆控制模块:将控制指令转化为车辆的实际动作。整个流程是,驾驶员发出指令,LLM理解指令并结合记忆模块中的偏好,生成控制指令,最终控制车辆。
关键创新:该论文的关键创新在于:1) 首次将大语言模型应用于真实自动驾驶车辆的控制,实现了自然语言人机交互。2) 提出了记忆模块,用于学习和存储驾驶员的个性化偏好,从而实现个性化自动驾驶。3) 进行了多场景的实地实验,验证了所提出框架的有效性。
关键设计:记忆模块的设计是关键。具体实现细节未知,但推测可能使用某种形式的向量数据库或知识图谱来存储驾驶员的偏好信息。损失函数的设计也至关重要,需要平衡安全性、效率和舒适性等多个目标。论文中未明确说明具体的损失函数形式,但提到系统会学习满足个人偏好,推测损失函数中包含了对驾驶员偏好的建模。
📊 实验亮点
实验结果表明,Talk2Drive能够理解不同层次的人类意图,并显著降低驾驶员的接管率。在高速公路、十字路口和停车场景中,接管率均有明显下降。与没有记忆模块的系统相比,引入记忆模块后,接管率最多降低了65.2%,验证了个性化偏好学习的有效性。这些数据表明,Talk2Drive在提升自动驾驶系统的用户信任度和可用性方面具有显著优势。
🎯 应用场景
该研究成果可应用于各种自动驾驶车辆,提升用户体验,降低驾驶员疲劳。通过学习驾驶员的个性化偏好,自动驾驶系统可以提供更安全、舒适和高效的驾驶服务。未来,该技术还可扩展到其他智能交通系统,例如智能公交、自动泊车等,实现更智能、更便捷的出行。
📄 摘要(原文)
Integrating large language models (LLMs) in autonomous vehicles enables conversation with AI systems to drive the vehicle. However, it also emphasizes the requirement for such systems to comprehend commands accurately and achieve higher-level personalization to adapt to the preferences of drivers or passengers over a more extended period. In this paper, we introduce an LLM-based framework, Talk2Drive, capable of translating natural verbal commands into executable controls and learning to satisfy personal preferences for safety, efficiency, and comfort with a proposed memory module. This is the first-of-its-kind multi-scenario field experiment that deploys LLMs on a real-world autonomous vehicle. Experiments showcase that the proposed system can comprehend human intentions at different intuition levels, ranging from direct commands like "can you drive faster" to indirect commands like "I am really in a hurry now". Additionally, we use the takeover rate to quantify the trust of human drivers in the LLM-based autonomous driving system, where Talk2Drive significantly reduces the takeover rate in highway, intersection, and parking scenarios. We also validate that the proposed memory module considers personalized preferences and further reduces the takeover rate by up to 65.2% compared with those without a memory module. The experiment video can be watched at https://www.youtube.com/watch?v=4BWsfPaq1Ro