Dino-Diffusion Modular Designs Bridge the Cross-Domain Gap in Autonomous Parking
作者: Zixuan Wu, Hengyuan Zhang, Ting-Hsuan Chen, Yuliang Guo, David Paz, Xinyu Huang, Liu Ren
分类: cs.RO, cs.CV
发布日期: 2025-10-23
备注: Code is at https://github.com/ChampagneAndfragrance/Dino_Diffusion_Parking_Official
💡 一句话要点
Dino-Diffusion Parking:利用视觉基础模型和扩散模型实现跨域自动泊车
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动泊车 领域泛化 视觉基础模型 扩散模型 机器人 运动规划 深度学习
📋 核心要点
- 端到端自动泊车方法在特定领域表现出色,但在天气、光照变化等领域偏移下,鲁棒性面临挑战。
- DDP利用视觉基础模型提取通用特征,结合扩散模型进行运动规划,提升模型在不同环境下的泛化能力。
- 实验表明,DDP在各种分布外场景中泊车成功率超过90%,并在模拟到真实世界的迁移中表现出潜力。
📝 摘要(中文)
本文提出Dino-Diffusion Parking (DDP),一种领域无关的自动泊车流程,它集成了视觉基础模型和基于扩散的规划,以实现泛化的感知和在分布偏移下鲁棒的运动规划。该流程在CARLA模拟器的常规设置下训练,并以零样本方式迁移到更具对抗性的设置中。实验结果表明,DDP模型在所有测试的分布外(OOD)场景中始终达到90%以上的泊车成功率。消融研究证实,网络架构和算法设计都显著增强了相对于现有基线的跨域性能。此外,在从真实停车场重建的3D高斯溅射(3DGS)环境中进行的测试也展示了有希望的模拟到真实世界的迁移能力。
🔬 方法详解
问题定义:现有端到端自动泊车方法在特定领域表现良好,但当环境发生变化(例如,不同的天气条件、光照条件)时,性能会显著下降。这种领域偏移问题限制了这些方法在实际场景中的应用。现有方法通常依赖于大量特定领域的数据进行训练,难以泛化到未见过的场景。
核心思路:本文的核心思路是利用视觉基础模型(如DINO)提取与领域无关的通用视觉特征,并结合扩散模型进行运动规划。DINO能够学习到对环境变化不敏感的特征表示,而扩散模型能够生成多样化的运动轨迹,从而提高泊车系统的鲁棒性和泛化能力。通过将感知和规划解耦,可以更好地应对领域偏移带来的挑战。
技术框架:DDP的整体架构包含以下几个主要模块:1) 感知模块:使用DINO提取图像特征,该特征用于描述周围环境。2) 状态估计模块:根据视觉特征估计车辆的当前状态(位置、方向等)。3) 规划模块:使用扩散模型生成一系列可能的运动轨迹,并根据一定的评价指标选择最优轨迹。4) 控制模块:根据选定的轨迹生成控制指令,控制车辆执行泊车动作。整个流程在CARLA模拟器中进行训练和验证。
关键创新:DDP的关键创新在于将视觉基础模型和扩散模型相结合,构建了一个领域无关的自动泊车系统。与传统的端到端方法相比,DDP能够更好地应对领域偏移带来的挑战,并在未见过的场景中表现出更好的泛化能力。此外,DDP的模块化设计使得各个模块可以独立进行优化和改进。
关键设计:DDP的关键设计包括:1) 使用DINO作为视觉特征提取器,并对其进行微调以适应泊车任务。2) 使用扩散模型生成运动轨迹,并设计合适的损失函数来指导模型的训练。3) 设计了一种基于规则的评价指标,用于选择最优轨迹。4) 采用数据增强技术,增加训练数据的多样性,提高模型的鲁棒性。
📊 实验亮点
DDP在CARLA模拟器的各种分布外场景中实现了超过90%的泊车成功率,显著优于现有基线方法。消融实验表明,DINO和扩散模型都对性能提升做出了重要贡献。此外,DDP在从真实停车场重建的3DGS环境中也表现出良好的迁移能力,验证了其在实际场景中的应用潜力。
🎯 应用场景
DDP技术可应用于各种自动泊车场景,例如停车场、路边停车等。该研究成果有助于提高自动驾驶系统的安全性和可靠性,减少人为事故的发生。此外,该技术还可以应用于物流、仓储等领域,实现自动化的车辆调度和管理,提高运营效率。未来,DDP有望成为智能交通系统的重要组成部分。
📄 摘要(原文)
Parking is a critical pillar of driving safety. While recent end-to-end (E2E) approaches have achieved promising in-domain results, robustness under domain shifts (e.g., weather and lighting changes) remains a key challenge. Rather than relying on additional data, in this paper, we propose Dino-Diffusion Parking (DDP), a domain-agnostic autonomous parking pipeline that integrates visual foundation models with diffusion-based planning to enable generalized perception and robust motion planning under distribution shifts. We train our pipeline in CARLA at regular setting and transfer it to more adversarial settings in a zero-shot fashion. Our model consistently achieves a parking success rate above 90% across all tested out-of-distribution (OOD) scenarios, with ablation studies confirming that both the network architecture and algorithmic design significantly enhance cross-domain performance over existing baselines. Furthermore, testing in a 3D Gaussian splatting (3DGS) environment reconstructed from a real-world parking lot demonstrates promising sim-to-real transfer.