Driving Beyond Privilege: Distilling Dense-Reward Knowledge into Sparse-Reward Policies
作者: Feeza Khan Khanzada, Jaerock Kwon
分类: cs.RO
发布日期: 2025-12-03
💡 一句话要点
提出奖励特权世界模型蒸馏,解决自动驾驶中稠密奖励泛化性差的问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 强化学习 知识蒸馏 世界模型 稀疏奖励
📋 核心要点
- 现有方法依赖稠密奖励训练自动驾驶策略,但这些策略在部署时泛化性差,无法很好地适应稀疏奖励场景。
- 提出奖励特权世界模型蒸馏,利用稠密奖励训练教师模型,然后将学习到的潜在动态知识蒸馏到稀疏奖励训练的学生模型。
- 实验表明,该方法在CARLA模拟器中,车道跟随和超车任务上,显著优于稠密奖励教师模型和从头开始训练的稀疏奖励模型。
📝 摘要(中文)
本文研究如何在基于视觉的自动驾驶中利用模拟器定义的稠密奖励,同时避免其与部署指标的不对齐问题。在CARLA等真实模拟器中,特权状态(如车道几何、违规行为、碰撞时间)可以转化为稠密奖励,从而稳定和加速基于模型的强化学习。然而,直接基于这些信号训练的策略通常会过拟合,并且在评估稀疏目标(如路线完成和无碰撞超车)时泛化失败。我们提出奖励特权世界模型蒸馏,这是一个两阶段框架,其中首先使用稠密特权奖励训练一个教师DreamerV3风格的智能体,然后仅将其潜在动态蒸馏到仅使用稀疏任务奖励训练的学生智能体中。教师和学生共享相同的观察空间(语义鸟瞰图图像);特权信息仅通过教师的奖励进入,学生不模仿教师的动作或价值估计。相反,学生的World Model被正则化以匹配教师的潜在动态,而其策略则完全从稀疏的成功/失败信号中学习。在CARLA车道跟随和超车基准测试中,稀疏奖励学生优于稠密奖励教师和从头开始的稀疏基线。在未见过的车道跟随路线上,奖励特权蒸馏相对于稠密教师提高了约23%的成功率,同时保持了相当或更好的安全性。在超车方面,学生在训练路线上保持了近乎完美的性能,并在未见过的路线上实现了高达27倍的成功率提升,并改善了车道保持。这些结果表明,可以利用稠密奖励来学习更丰富的动态模型,同时保持部署策略严格针对稀疏的、与部署对齐的目标进行优化。
🔬 方法详解
问题定义:论文旨在解决在自动驾驶模拟器中使用稠密奖励训练策略时,策略难以泛化到真实世界或稀疏奖励场景的问题。现有方法直接使用稠密奖励训练策略,导致策略过度拟合模拟器环境,无法很好地适应真实世界中稀疏的奖励信号,例如路线完成或避免碰撞等。
核心思路:论文的核心思路是将知识从一个使用稠密奖励训练的教师模型蒸馏到一个仅使用稀疏奖励训练的学生模型。教师模型利用稠密奖励学习环境的动态特性,然后将这些动态特性传递给学生模型,学生模型则专注于优化稀疏奖励目标。这样,学生模型可以利用稠密奖励的优势,同时避免过度拟合稠密奖励带来的问题。
技术框架:该方法采用两阶段框架:1) 教师模型训练:使用DreamerV3风格的智能体,利用稠密特权奖励在CARLA模拟器中进行训练。教师模型学习环境的潜在动态模型。2) 学生模型训练:学生模型与教师模型共享相同的观察空间(语义鸟瞰图图像),但仅使用稀疏任务奖励进行训练。学生模型的World Model被正则化以匹配教师模型的潜在动态。学生模型不模仿教师模型的动作或价值估计。
关键创新:该方法最重要的创新点在于将稠密奖励学习到的环境动态知识蒸馏到稀疏奖励策略中,从而实现了在稀疏奖励场景下的高性能。与直接使用稠密奖励训练策略相比,该方法避免了策略过度拟合稠密奖励的问题。与从头开始训练稀疏奖励策略相比,该方法利用了稠密奖励提供的丰富信息。
关键设计:关键设计包括:1) 使用DreamerV3作为教师模型和学生模型的基础架构。2) 使用KL散度来正则化学生模型的World Model,使其匹配教师模型的潜在动态。3) 学生模型不模仿教师模型的动作或价值估计,而是完全从稀疏奖励中学习策略。4) 教师模型使用特权信息(如车道几何、违规行为、碰撞时间)来生成稠密奖励,而学生模型仅使用语义鸟瞰图图像作为输入。
📊 实验亮点
实验结果表明,在CARLA车道跟随和超车基准测试中,稀疏奖励学生模型优于稠密奖励教师模型和从头开始的稀疏基线。在未见过的车道跟随路线上,奖励特权蒸馏相对于稠密教师提高了约23%的成功率,同时保持了相当或更好的安全性。在超车方面,学生在训练路线上保持了近乎完美的性能,并在未见过的路线上实现了高达27倍的成功率提升,并改善了车道保持。
🎯 应用场景
该研究成果可应用于自动驾驶系统的开发,尤其是在奖励函数难以设计或与实际部署目标不完全一致的情况下。通过利用模拟器中的稠密奖励进行预训练,然后将知识迁移到真实世界或稀疏奖励场景,可以提高自动驾驶系统的性能和泛化能力。该方法还可以应用于其他机器人学习任务,例如导航、操作等。
📄 摘要(原文)
We study how to exploit dense simulator-defined rewards in vision-based autonomous driving without inheriting their misalignment with deployment metrics. In realistic simulators such as CARLA, privileged state (e.g., lane geometry, infractions, time-to-collision) can be converted into dense rewards that stabilize and accelerate model-based reinforcement learning, but policies trained directly on these signals often overfit and fail to generalize when evaluated on sparse objectives such as route completion and collision-free overtaking. We propose reward-privileged world model distillation, a two-stage framework in which a teacher DreamerV3-style agent is first trained with a dense privileged reward, and only its latent dynamics are distilled into a student trained solely on sparse task rewards. Teacher and student share the same observation space (semantic bird's-eye-view images); privileged information enters only through the teacher's reward, and the student does not imitate the teacher's actions or value estimates. Instead, the student's world model is regularized to match the teacher's latent dynamics while its policy is learned from scratch on sparse success/failure signals. In CARLA lane-following and overtaking benchmarks, sparse-reward students outperform both dense-reward teachers and sparse-from-scratch baselines. On unseen lane-following routes, reward-privileged distillation improves success by about 23 percent relative to the dense teacher while maintaining comparable or better safety. On overtaking, students retain near-perfect performance on training routes and achieve up to a 27x improvement in success on unseen routes, with improved lane keeping. These results show that dense rewards can be leveraged to learn richer dynamics models while keeping the deployed policy optimized strictly for sparse, deployment-aligned objectives.